Diferencia entre científico y analista de datos

Ahora que tengo un poco claro qué es la ciencia de los datos, he buscado la diferencia fundamental entre un analista de datos (data analyst) y científico de datos (data scientist).

Icono de una lupa sobre tres discos duros, como buscando en una base de datos, para ilustrar la diferencia entre científico de datos y analista de datos

En primer lugar, puede haber un arquitecto de datos (data engineer) que se encarga de la infraestructura en la que se almacenan los datos sin procesar (datasets) y a la que se accede. Esto abarca hardware, programas y API. De hecho, ingenieros de software participan en algunas situaciones también.

Analista de datos vs científico de datos

Con los datos accesibles, una de estas figuras (ingeniero, analista, científico) etiquetará y limpiará los datos. El encargado de esto varía según las circunstancias. La asignación de algunas tareas al analista de datos o al científico parece depender a veces del tamaño del departamento.

El principal cometido de un analista de datos es explorar la información existente ya estructurada (en ciertas bases de datos u hojas de cálculo, por ejemplo) y explicar qué cuentan (¿qué ha pasado?) para que personas ajenas al mundo de la estadística y los datos tomen decisiones. En ocasiones el analista expone sus averiguaciones en un informe o dashboard muy gráfico (data visualisation).

Por su parte, el científico de datos añade una perspectiva más innovadora, de futuro y a más largo plazo. Sabe optimizar la captura y el procesamiento de los datos mediante herramientas, algoritmos (machine learning) y modelados predictivos. Por ejemplo, pueden hacer que se recomiende algo a usuarios basándose en usos previos.

En general, el científico de datos tiene más responsabilidades (por lo que sus utensilios llegan más lejos) y trabaja con un volumen de datos bastante mayor (big data y la nube). En algunos casos ser analista se trata de un paso previo a convertirse en científico.

A %d blogueros les gusta esto: