La importancia de hacerse las preguntas correctas en el análisis de datos
Antes de sentarse a pensar sobre la solución a cualquier problema que enfrentamos en nuestro trabajo o en nuestras vidas, es crucial comprender qué es lo que realmente queremos resolver y si esto nos soluciona el problema de raíz, además de si se ajusta a nuestra realidad. Este último punto es más engañoso debido a que muchas veces encontraremos soluciones óptimas técnicamente pero no aplicables a la realidad, lo que termina generando más problemas a la larga. De ahí la importancia de sentarse a meditar sobre si estamos resolviendo, conteniendo o parcheando el problema.
Ejemplos históricos
Durante la Segunda Guerra Mundial, el Departamento de Guerra de Estados Unidos buscaba reducir la cantidad de bombarderos derribados por el enemigo. Para ello, analizaron los impactos recibidos por los aviones que regresaban de sus misiones, con la idea de reforzar las áreas más dañadas. Sin embargo, Abraham Wald, un estadístico que trabajaba para el gobierno, señaló que este análisis estaba sesgado, ya que solo consideraba los aviones que habían sobrevivido. Wald propuso reforzar las áreas menos dañadas, ya que los aviones que recibían impactos en esas zonas eran derribados y no regresaban a la base.(1)
Otro ejemplo, es sobre la relación entre el consumo de café y la incidencias de enfermedades cardíacas. En el 2010 por el "American Journal of Epidemiology" encontró una correlación entre el consumo de café y un aumento en la incidencia de enfermedades cardíacas. Los investigadores observaron que las personas que consumían grandes cantidades de café tenían una mayor tasa de problemas cardíacos en comparación con aquellos que consumían poco o nada.
Sin embargo, este estudio no consideró adecuadamente otros factores de riesgo asociados con el consumo de café. Investigaciones adicionales, por ejemplo la realizada en 2014 (2), sugirieron que muchas de las personas que consumen grandes cantidades de café también tienden a tener otros hábitos poco saludables, como fumar, llevar una dieta poco equilibrada y llevar un estilo de vida sedentario. Por lo tanto, la correlación observada entre el consumo de café y las enfermedades cardíacas no implica que el café cause problemas cardíacos, sino que ambos pueden estar relacionados con otros factores de riesgo.
La importancia de hacer las preguntas correctas en la era de los datos
En estos casos podemos ver que las preguntas que nos hacemos son esenciales para poder llegar a buenas conclusiones, debido a que muchas veces los datos pueden mostrarnos lo que nos hemos negado a ver. Es así que en la era de los datos, seguimos lanzándonos a la búsqueda de respuestas, sin habernos detenido lo suficiente a la hora de plantear las preguntas, sin haber definido claramente cuáles son los problemas prioritarios. En lugar de preguntarnos: ¿Qué pregunta identifica nuestro problema? o ¿qué datos necesitamos para resolverla?, lo hacemos al revés: ¿Qué datos tenemos? o ¿a qué datos podemos acceder?. Esto es la causa de que, en muchas ocasiones, las iniciativas basadas en datos no obtengan los resultados esperados.
De "data-driven" a "question-driven"
Para pasar de un enfoque "data-driven" a uno "question-driven", es fundamental:
- Definir claramente el problema que queremos resolver.
- Formular hipótesis sobre las posibles causas y soluciones.
- Diseñar un experimento para poner a prueba nuestras hipótesis.
- Recolectar los datos necesarios para responder nuestras preguntas.
- Analizar los datos de manera rigurosa y objetiva.
- Sacar conclusiones basadas en los resultados del análisis.
- Comunicar los hallazgos de manera clara y convincente.
Hacerse las preguntas correctas antes de analizar datos es fundamental para obtener resultados relevantes y aplicables a la realidad. Solo así podremos resolver problemas de raíz y evitar generar más problemas a largo plazo. En la era de los datos, es crucial pasar de un enfoque "data-driven" a uno "question-driven", centrando nuestros esfuerzos en definir claramente los problemas prioritarios y formular hipótesis antes de lanzarnos a la búsqueda de respuestas.
Bibliografía
1. Abraham Wald, "A Method of Estimating Plane Vulnerability Based on Damage of Survivors", Statistical Research Group, Columbia University, 1943
2. Ding, M., Bhupathiraju, S. N., Satija, A., van Dam, R. M., & Hu, F. B. (2014). Long-term coffee consumption and risk of cardiovascular disease: a systematic review and a dose-response meta-analysis of prospective cohort studies. Circulation, 129(6), 643–659. https://doi.org/10.1161/CIRCULATIONAHA.113.005925
¿Algún error o sugerencia ?
Escríbeme usando la sección de contacto
Sobre Francisco Castillo
Soy un apasionado analista de datos y programador, dedicado a transformar información compleja en soluciones prácticas. Disfruto descubrir patrones y obtener insights valiosos que optimizan recursos y mejoran la eficiencia operativa.Con una formación en ingeniería agronómica y experiencia en herramientas como Excel, SQL, Python, React y Node.js, he hecho la transición a la tecnología de la información. Actualmente, busco oportunidades en Chile para aplicar mis conocimientos y aprender de desarrolladores experimentados.Mi objetivo es crecer en el ámbito del análisis de datos, aportando una perspectiva fresca y soluciones basadas en datos. Te invito a visitar mi portafolio en www.codefran.com, donde comparto mis proyectos y logros. ¡Conectemos y exploremos juntos el fascinante mundo de los datos!