Cuando los datos no representan adecuadamente el contexto del problema a resolver, los modelos y sistemas que surgen de éstos, pueden generarnos muchos sesgos y complicaciones.

Imagine que en su empresa desean conocer si un cliente los abandonará en el corto plazo, pero no tienen la información necesaria para averiguarlo. Muchas organizaciones comparten esta problemática y resulta vital brindarles una solución adecuada.

Una estrategia común del área de Ciencia de Datos ante esta necesidad, es construir y entrenar modelos predictivos, usando los insights disponibles. El desafío principal en todo modelo predictivo es, no solo contar con los datos necesarios, sino que éstos sean de calidad.

Claramente, emplear datos con una mala representación del contexto o problema puede llevarnos a realizar predicciones ilógicas o absurdas. Un claro ejemplo de una potencial mala representación es el de ImageNet, una base de datos de imágenes de uso recurrente para el entrenamiento de sistemas de reconocimiento facial. Aproximadamente el 45% de las fotografías incluidas en el sistema se tomaron en EE.UU y representan a norteamericanos y europeos, mientras que China tiene un 1% de participación. 

Es importante tener en cuenta que el modelo o algoritmo se adapta siempre a los datos de entrenamiento que le suministramos y, por esta razón, es fundamental que el equipo de Data Scientists evalúe si la calidad/representación de datos es adecuada y suficiente.

Volviendo al problema de identificar clientes que abandonarán o no a una empresa, es común encontrar una mala representación en los datos que permiten detectar los medios que emplea la organización para contactar a sus clientes y si fueron contactados efectivamente. Generalmente, contar con dicha información de contacto permite mejorar la predicción de los modelos en un 5%, pero muchas empresas no los tienen y además, creen que no son necesarios.

Es evidente que los sesgos que aparecen al momento de evaluar los resultados de los modelos predictivos, se deben más que nada a un apuro por poner en producción una solución analítica (en este caso, el modelo entrenado), pero no a la falta de tecnología (de hecho, los algoritmos se encuentran disponibles en forma masiva para ser usados). 

Justamente, la principal falla es no evaluar la calidad de los datos antes de poner en entrenamiento y producción el modelo. De aquí surge la importancia de contar con un equipo de especialistas en Ciencia de Datos que reconozcan que las malas decisiones tomadas a partir de modelos mal entrenados, impactarán directa y negativamente en la empresa.