Las palabras del mundo de los datos

Quería entender y percibir las diferencias entre conceptos cada vez más comunes como inteligencia artificial, big data, machine learning o minería de datos. Para lograr distinguirlos, parecía necesario ubicarse un poco en el ámbito de las ciencias, así como una aclaración básica de ciertos términos.

Mi interpretación tras unas cuantas lecturas sería: el software de inteligencia artificial es programado con algoritmos de aprendizaje automático que analizan big data; con pocas referencias clasifican de estos datos hasta la variable más sutil y reconocen patrones, tendencias o irrelevancias mediante minería, algo que no podemos hacer los humanos con ese detalle ni a esa escala o rapidez.

Para presentar cómo llegué a razonar lo anterior, esta publicación se divide en cinco apartados:

Las ramas científicas y sus conexiones

Cada rama de la ciencia va conformando unos principios explicativos sobre la naturaleza, la sociedad o los productos artificiales. A su vez cada ámbito específico tiene varias disciplinas. Por ejemplo, las Ciencias de la Información (Information Science) investigan los sistemas que almacenan, procesan y transmiten datos; entre sus disciplinas están la archivística o la biblioteconomía.

Iconos con algunas ramas de las ciencias

Se suele agrupar a todas las ciencias en dos o tres grandes grupos en función de determinados criterios como si aquello que estudia es real o abstracto, el método o su fin. Así las Ciencias de la Computación (Computer Science) se encuadrarían dentro de las formales por consistir en sistemas lógicos.

Una disciplina de una rama puede estar muy conectada con subdivisiones de otras áreas del saber. Estas comparten su objeto o algunas de las formas de aproximarse a lo que investigan. Como ejemplo de campo interdisciplinario entre la Lingüística y la Inteligencia Artificial estaría el Procesamiento del Lenguaje Natural (Natural Language Processing > NLP) que se ocupa de la comunicación entre humanos y máquinas.

Diferencia entre metodología, método, técnica, procedimiento y proceso

La metodología consiste en elegir qué método o combinación de ellos es más adecuado para abordar determinado empeño.

El método será el cómo se enfoca concretamente el estudio de tal parte de la realidad. Tengamos en cuenta que algunos fenómenos o intereses no permiten ser explorados con ciertos métodos.

El método científico se caracteriza por teorizar para adquirir nuevos conocimientos tras observar, experimentar y medir de forma revisada y revisable. Existen varios modelos de método científico, como el deductivo, inductivo, analítico o sintético.

Una técnica es una vía concreta para lograr un resultado, por ejemplo, crear un libro electrónico. A menudo requiere el uso de herramientas o determinados conocimientos para saber cómo actuar en tal contexto. La tecnología estudia las técnicas que emplean los seres vivos.

El conjunto de actividades para conseguir un objetivo son los procesos. En el caso de crear un ebook, habría que preparar el texto fuente, insertarlo en un programa informático adecuado, darle forma, exportar y testear.

Los procedimientos serán los pasos detallados para llevar a cabo de una manera concreta cada una de esas tareas conceptuales. Correspondería con exportar un ebook en formato epub desde Notepad++, que tiene unos requisitos e instrucciones que seguir.

¿Qué es un dato?

El dato es un valor numérico o textual relacionado con un atributo. Por ejemplo, 2024 puede ser el año de publicación de un manual, el total de una factura o un grupo de personas.

Pantalla de ordenador con diagramas de datos

Las principales categorías de un conjunto de datos pueden estar destacadas mediante metadatos. Es decir, el título de cada obra será un metadato en bibliotecas y librerías digitales. La finalidad de tales etiquetas suele ser la búsqueda, la identificación, la estructuración de contenidos o la comunicación con programas.

Se denomina información a los datos que han adquirido algún significado por haber sido contextualizados y procesados, esto es, revisados (¿errores?) o sometidos a alguna operación. De este modo, a partir de tablas de precios por tipo de libro, se podría concluir a partir que los ebooks son de media más baratos que los libros impresos de tapa dura.

Los mensajes encontrados en los datos pueden combinarse con lo sabido, compararse con otros y conectarse con causas o consecuencias convirtiéndose así en conocimiento, útil para actuar.

La gestión y estudio de los datos

Ejemplo de datos extraídos de una tabla

La información se suele agrupar en bases de datos. En el ámbito digital, los sistemas de gestores de bases de datos son programas que almacenan y permiten acceder a la información estructurada.

Existen también bases de conocimiento (knowledge bases), es decir, con ciertas reglas el sistema produce nociones abstractas a partir de hechos.

Los macrodatos (big data) son conjuntos de datos grandes y complejos que solo pueden procesar ordenadores. Gracias a la microelectrónica y al Internet de las cosas (Internet of Things > IoT), hasta los electrodomésticos pueden transmitir datos.

Análisis inteligente de los datos

La ciencia de datos (Data Sciencees un campo interdisciplinario que engloba aquellas disciplinas que buscan sacar algún sentido a los datos.

El análisis de datos (data analysisse trata de un proceso en el que se examina información para extraer algo de utilidad.

La minería de datos (data mining) es una técnica concreta de analizar datos para discernir tendencias y patrones con fines predictivos. Por ejemplo, segmentar usuarios y sus comportamientos más probables. Cuando estos datos son documentos (libros, correos, webs), el análisis para obtener relaciones y conceptos tácitos se denomina minería de textos (text mining).

La IE o inteligencia empresarial (business intelligence > BI) consistiría en que los datos de un negocio se analicen mediante minería y otras técnicas que dan lugar a conocimiento y se presenten de modo accesible para tomar decisiones fundamentadas.

Qué es la inteligencia artificial

El algoritmo se define como una secuencia de operaciones o pasos que llevan a un resultado o solucionar un problema. Los algoritmos sencillos se pueden representar con diagramas de flujo.

Letras de programación sobre un fondo con muchos servidores o discos duros, cual algoritmos de inteligencia artificial

La IA o inteligencia artificial (artificial intelligence > AI) es un programa que mediante complejos algoritmos de aprendizaje automático y modelos estadísticos puede aprender de la experiencia y hacer tareas establecidas, como recomendar libros similares. Clasifican, reconocen, predicen.

El aprendizaje automático (machine learning) es pues la capacidad resultante de programar determinados algoritmos en un software de inteligencia artificial para que sin supervisión ni información previa (o muy pocas) pueda llegar a conclusiones dinámicas a partir de macrodatos. Cuantos más inputs, más precisión.

Hay varios tipos de algoritmos de aprendizaje automático, como los árboles de decisión o las redes neuronales (capas flexibles, especializadas e interconectadas). Un subtipo de estas últimas puede abstraer y jerarquizar las diferentes características de los datos (tal que las variables del sonido o la imagen), lo que se conoce como aprendizaje automático profundo (deep learning).

Por lo que entiendo, los algoritmos de aprendizaje automático son un instrumento de la minería para que de los datos se puedan extraer categorías y modas. Y la minería de datos es una de las técnicas que la inteligencia artificial emplea para entender aquello que se le presenta y actuar en consecuencia.

Los usos de todo esto en muchos ámbitos está revolucionando los conocimientos, servicios y productos a los que el ser humano puede acceder. Con la automatización del trabajo y aprendizaje de las computadoras, los ciudadanos podríamos aspirar a otra forma de estar en el mundo, valorando el tiempo y lo que podemos aportar, si hay planificación y solidaridad.

A %d blogueros les gusta esto: