¿Big Data o Big Caos?

Planificar para evitar que el Big Data se transforme en Big Caos

Para simplificar, decimos que los sistemas inteligentes de control de calidad impactan en la optimización de tres dimensiones fundamentales: la captura, el análisis, y la compartición de los datos.

Sin embargo, y aunque no se mencione expresamente entre las ventajas, hay una fase preliminar que es la base del éxito de cualquier herramienta de explotación de datos: definir lo más certeramente posible qué datos son los que necesitamos, qué nos pueden aportar, y qué pretendemos obtener con ellos.

Efectivamente, la fase de definición y planificación es la base del éxito de un proyecto de tratamiento de datos. Antes de empezar a capturar datos, debemos contestar una serie de preguntas del tipo:

  • ¿Dónde se originan los datos? ¿Con qué frecuencia?
  • ¿Qué fuentes de datos tienen el potencial de proporcionar un valor añadido?
  • ¿Cómo garantizamos su fiabilidad/homogeneidad/veracidad?
  • ¿Cómo vamos a almacenarlos?
  • ¿Es necesario analizarlos en tiempo real?
  • ¿Podemos combinar nuestros datos con otros datos externos que nos ayuden a buscar correlaciones valiosas?
  • ¿Qué utilidad prevemos que tengan esos datos? ¿Para qué los queremos?

Dado que la respuesta a estas preguntas va a configurar el modelo a implementar, es muy importante ser capaces de responderlas adecuadamente, porque es en esta fase donde se gesta un buena parte del éxito o fracaso de un proyecto de gestión de datos. Tengamos en cuenta que el objetivo último es poder disponer de información adecuada para la toma de decisiones eficiente, así que si el modelo está mal definido, las decisiones serán cuando menos inciertas.

 

«Tengamos en cuenta que el objetivo último es poder disponer de información adecuada para la toma de decisiones eficiente, así que si el modelo está mal definido, las decisiones serán cuando menos inciertas.

 

Por ejemplo, si se prevé que los datos de control de calidad procedan tanto de procesos industriales como de ensayos de laboratorio, es muy importante definir cómo van a correlacionarse (a través del lote de fabricación, por ejemplo) para que el sistema pueda entrelazar la información y detectar posibles cambios en los patrones de comportamiento, decidiendo si es una anomalía o no; de este modo el sistema irá aprendiendo continuamente.

O si se trata de referencias que forman un subconjunto, habrá que prever la necesidad de disponer de una lista de componentes para mantener la trazabilidad y asegurar la integridad de la información.

Se trata de no perdernos en los datos, y evitar que un proyecto de Big Data se convierta en uno de Big Caos. Hay que pensar siempre en soluciones que aporten valor más que centrarse en amasar cifras y datos; como decía el eslogan de Pirelli, “la potencia sin control no sirve de nada”, y disponer de centenares de miles de millones de datos sin saber qué hacer con ellos o, lo que es peor, habiendo equivocado la estrategia de recogida y análisis, es realmente una pérdida de tiempo: tendremos un cementerio de datos en vez de información útil para la toma de decisiones.