Buscar este blog

martes, 8 de diciembre de 2015

No, los “datos masivos” no pueden predecir el futuro





Con el dominio de Google en el mercado de las máquinas de búsqueda en línea, entramos en la Edad de los Libres. De hecho los servicios en línea hoy en día se espera que se ofrezcan sin coste. Lo que, por supuesto, no significa que no tengan coste, solo que el consumidor no lo paga. Los primeros intentos financiaban los servicios con anuncios, pero pronto vimos un movimiento hacia hacer del consumidor el producto. Hoy servicios gratuitos y no gratuitos compiten por los “usuarios” y después hacen dinero con los datos que recogen.
Los datos se han utilizado siempre, pero lo que es novedoso de nuestro tiempo es el muy bajo (o incluso nulo) coste marginal de recoger y analizar enormes cantidades de datos. El concepto de “datos masivos” (“big data”) se está imponiendo y se predice que será “el futuro” de los negocios.
Aquí hay un problema, que es el exceso de confianza en la ley de los grandes números en la previsión social. Las probabilidades estadísticas de acontecimientos pueden converger matemáticamente en la media, pero ¿es esto aplicable al mundo real? La respuesta es casi definitivamente que sí en las ciencias naturales. Experimentos controlados repetidos eliminarán explicaciones o causas de los fenómenos erróneas, al menos suponiendo que seamos lo suficientemente buenos en separar y controlar las causas.
¿Qué pasa con las ciencias sociales? En esta época de cientifismo, como la llamaba Hayek, se nos dice que los “datos masivos” transformarán completamente la producción, la logística y las ventas. La razón para esto que es los vendedores pueden dirigirse mejor a los consumidores e incluso predecir que podrían querer a continuación. Amazon.com hace esto en su sitio web de una forma basta, cuando hace sugerencias basadas en su historial de compras y lo que otros con historiales similares han buscado. A veces funciona y a veces no.
Hay cierta regularidad en nuestros intereses y comportamiento. Todos somos, después de todo, seres humanos y estamos formados en ciertas culturas. Así que un estadounidense con los intereses 1, 2 y 3 puede tener intereses similares a otro estadounidense que también tenga interés en 1,2 y 3.

El comportamiento humano es impredecible

Pero similitud no es lo mismo que predicción. Las sugerencias de Amazon.com o los anuncios tan molestos que nos siguen por los sitios web son métodos útiles para los vendedores porque pueden de alguna forma identificar adecuadamente qué no ofrecer. La exclusión de intereses de muy baja probabilidad aumenta la probabilidad de sugerir algo que pueda interesar a la persona detrás de los globos oculares centrados en la pantalla de la computadora.
Sin embargo usar como predicción la exclusión de los eventos con probabilidad cercana a cero está lejos de ser suficiente. De hecho, la predicción requiere que seamos capaces de excluir adecuadamente todos salvo uno o dos resultados probables. Y tenemos que poder confiar en que estas predicciones se harán realidad. De otra forma, será solo un juego y por tanto estaremos adivinando. Es verdad que serían adivinaciones justificadas (porque habremos excluido los imposible y lo casi imposible), pero siguen siendo juegos y adivinaciones.

Dónde fallan los datos masivos

Hablando de adivinaciones, la máquina de búsqueda de Microsoft, que alimenta el asistente digital de Windows, Cortana, entre otras cosas, ha creado una máquina de predicción con el fin de predecir resultados deportivos y de otro tipo. Confían en algoritmos muy avanzados y enormes cantidades de datos recogidos.
Asombrosamente, les fue muy bien al principio y predijo perfectamente los resultados de la Copa Mundial. ¿Así que tal vez podamos usar datos masivos para echar un vistazo al futuro?
No, no es así. Los equipos de Bing están aprendiendo una lección que solo los austriacos, y más concretamente los prexeologistas misesianos han sido los únicos en entender: que no hay constantes en la acción humana y por tanto que las predicciones de los fenómenos sociales son imposibles. Las predicciones de patrones, como las llamaba Hayek, pueden no ser imposibles, pero las predicciones de multitudes exactas sí lo son. Por ejemplo, podemos confiar en la ley económica (como “las curvas de demanda se inclinan a la baja”) para estimar un resultado como “el precio será menor del que habría sido en otro caso”, pero no podemos decir exactamente qué precio será.
En lo que se refiere a los deportes, reality shows y otras competiciones entre individuos o equipos, la historia es exactamente la misma. El equipo con mejor historial no gana siempre. ¿Por qué? Objetivamente han rendido mejor que el otro equipo, tal vez exclusivamente, pero eso no dice nada acerca del futuro. No nos estamos refiriendo a la duda filosófica como en “¿lucirá el sol mañana?” (quizá durante la noche algo cambie completamente la capacidad del sol de brillar).

Las ciencias sociales son diferentes

En las ciencias sociales, tratan fenómenos complejos. La acción y, especialmente, su resultadoes el de un sistema complejo de interacción social, psicología y muchas más coas. ¿Están los jugadores de ambos equipos igual de motivados y entregados como antes? ¿Hay algo en sus vidas personales que afecte a sus mentes o psiques? ¿Cómo reaccionarán exactamente los jugadores dentro de sus equipos y los de los demás equipos antes y durante el partido? Un equipo con un mal historial puede poner en apuros a un equipo con un historial objetivamente mejor, esto ocurre constantemente. A veces por la única razón de que el equipo mejor infravalora al peor o porque el inferior no siente presión para actuar y por tanto juega menos defensivamente.
La máquina de predicción de Bing lucha contra esto, como cabría suponer. Como informó recientemente Windows Central, la máquina de predicción había tenido su “peor semana hasta ahora”, eligiendo solo cuatro de catorce ganadores de la NFL. En general, su historial era aproximadamente de dos tercios correcto y un tercio equivocado (95-53). Definitivamente es mejor que jugárselo a cara o cruz, pero está muy lejos de predecir los resultados.
En otras palabras, para hacer apuestas, se puede querer usar la máquina de predicción de Bing. Es decir, salvo que se tenga el tipo de comprensión tácita e implícita de lo que pasa con lo que olvida la máquina. Quizá puedas derrotarla o quizá no. En todo caso, no puedes estar seguro de conseguir una victoria en todos los casos.
La razón para esto es que el resultado sencillamente no puede predecirse perfectamente, ni siquiera de forma cercana. Ni siquiera los jugadores pueden predecir quién ganará el partido, pero pueden tener información interna acerca de si su propio equipo parece motivado y entregado. Sin embargo no es un método perfecto e indudablemente no puede ser científico.
Ni siquiera con datos masivos hay predicción de los eventos sociales: solo hay adivinación. Sí, la adivinación con acceso a enormes cantidades de datos es más sencilla, al menos si los datos son fiables y relevantes. Pero una buena adivinación no es lo mismo que una predicción: sigue siendo una adivinación y puede ser errónea. Ganar todas las veces requiere suerte.

Publicado originalmente el 7 de diciembre de 2015. Traducido del inglés por Mariano Bas Uribe. El artículo original se encuentra aquí.

No hay comentarios:

Publicar un comentario