Monitoreo digital para predicción de tendencias: De la idea al resultado
Especialmente la predicción de tendencias de respaldo político. En este sentido, la idea era entender en principio, la percepción de gestión e imagen digital de los políticos; pero fundamentalmente su proyección como candidatos, con una evolución ideal del proyecto de llegar a la predicción de la presidencia en el proceso electoral que comenzaba el siguiente año.
Listening de medios digitales. Explicación y un poco de retrospectiva
Retrospectiva: monitorear las redes, allá lejos y hace tiempo
Cuando los 4 fundadores de SciData Argentina comenzamos con esta aventura, nuestra idea original era esta: monitorear los medios digitales, pero diferenciándonos del resto: en lugar de entregar bajadas de datos y lindos tableros de información en tiempo real e histórica para mostrar en un televisor, queríamos entregar insights y predicción de tendencias para poder tomar decisiones antes que ocurra el problema. El uso general, incluso hoy en día, es el análisis post mortem. Entender qué pasó a partir de información pasada y corregir el rumbo.
Obviamente era demasiado para una startup de 4 personas y tuvimos que recalcular (Gracias Juan Damia por tu sabio consejo temprano y a tiempo) y esperar 4 años y encontrarnos con la capacidad análisis y experiencia para construir noticias basadas en datos de Diego Corbalán para llegar a este punto.
¿Qué es el listening de medios digitales?
Es poner a trabajar a una herramienta de búsqueda de texto que tiene como fuente de entrada de datos palabras claves: palabras o conjuntos de palabras que queremos a encontrar en todos los medios digitales que existen en Internet.
Entendemos como medios digitales a cualquier plataforma conectada a internet que expone públicamente texto escaneable por la herramienta.
¿Que tipo de información?: opiniones de usuarios, comentarios en diarios, blogs, redes sociales como Twitter, páginas y grupos públicos de Facebook, publicaciones de usuarios enviadas como públicas en esa red y en Instagram, etc. En resumen, cualquier información gráfica, de texto o meta información catalogada como pública en internet.
Haciendo match y no en Tinder
Una vez que las palabras claves configuradas como entrada de datos en la herramienta hace un match (Como en Tinder 🤭) con la información pública disponible en Internet, se baja en la base de datos de la procesadora digital – pongamos una IA, con mucho de I pero más de H (Humano) que de A – y se cataloga dentro de un proyecto o categoría; no es ni más ni menos que un conjunto de palabras claves que cumplen con un mismo criterio.
Por ejemplo, si quiero buscar en la herramienta información sobre frutas, voy a crear un proyecto o categoría frutas, que busque en Internet cualquier cosa escrita que coincida con mis palabras claves: banana, manzana, peras, uvas, etc.
Clasificación, etiquetado y detección de percepción de datos
Una vez que la información encontrada sobre frutas es descargada en la herramienta, la IA comienza la agrupación en subcategorías, etiquetado y detección de temas de conversación y percepción de estas.
Por ejemplo, para el caso de las frutas, crearía los subgrupos cítricos, secas, dulces, ácidas, etc. Luego le agrega metainformación, por ejemplo, si hablan del sabor, frescura, estado, precio, calidad; y por último el sentimiento o percepción sobre esa fruta en particular: si fue positiva, negativa o neutral.
En esta parte de la percepción, es justo donde la I de la IA no es tan inteligente y necesita de expertos en lenguaje y estructuras semánticas y sintácticas. Mejor conocidos como lingüistas. Ya que es el motor de clasificación es incapaz de reconocer ironías, dobles sentidos o temas de conversación superpuestos.
Sobre perfiles, trolls y nivel de influencia
Desde ya, y antes que pregunten ¿Pero qué hacen con los trolls? ¿Salen en los informes? La respuesta es CATEGÓRICAMENTE, NO.
Lo primero que hay que tener en cuenta es que existen filtros de influencia y medición de actividad/cantidad de seguidores y seguidos. Esto significa que el 90 % de lo trolls son eliminados. Del 10% restante se filtran los conocidos y quedan un 3% no identificables que escapan al filtro sin importar ideología o a favor o en contra de qué está. Se escapan del filtro para todos por igual.
Comenzando el experimento de Monitoreo digital para predicción de tendencias.
Fue así que desde Scidata y con el enfoque periodístico de Diego Corbalan comenzamos con un experimento. Encontrar la fórmula (secreta como la de la gaseosa cola) de interpretar menciones en medios digitales como rechazos o apoyos políticos y traducirlos luego a intención de voto. Obteniendo resultados como el siguiente.
El Big Data habla, pero la política no siempre la escucha
En el estado de Facebook que vemos insertado podemos ver cómo a diferencia de las encuestadoras habituales nos habíamos acercado prácticamente un 90% a la diferencia de las PASO.
Para llegar a esto, previamente, probamos nuestros algoritmos en la última elección de España y de cara a las elecciones generales. Usamos los debates para terminar de ajustar los motores.
¿Por quién doblan las campanas de Monitoreo digital para predicción de tendencias?
En monitor digital ya veníamos anticipando la tendencia de las elecciones generales.
Es cierto que la campaña por las presidenciales quedó desabrida. Los contundentes resultados de las PASO contribuyeron a este fenómeno.
Pero la larga marcha electoral de los dos frentes en pugna deja traslucir algunos elementos de análisis que pueden marcar la diferencia.
De acuerdo con el análisis realizado junto con Scidata, la particularidad de esta campaña por la primer (¿y única?) vuelta electoral que defina al próximo presidente puede estar en sus vices.
En el caso de la fórmula oficialista de Juntos por el Cambio, el senador Miguel Ángel Pichetto se fue convirtiendo en sostén del binomio tras la debacle de la primera vuelta.
No únicamente para verificar - como todos decían - que Alberto Fernández ganaba en primera vuelta. También para anticipar la levantada y comenzar a avisar que la diferencia venía alrededor de los 9 puntos - algo casi nadie preveía -
Finalmente: anticipando resultados utilizando el monitoreo digital para predicción de tendencias.
Con tanto dato de elecciones pasadas, ajenas y propias, PASO, debates y marchas. Finalmente pudimos ajustar nuestros algoritmos para llegar a alcanzar lo que nadie (salvo una consultora brasileña). Un final en primera vuelta con una diferencia entre +/- 2 puntos de error en los algoritmos.
Por otra parte, al medir el respaldo político de los usuarios argentinos, el binomio del kirchnerismo alcanza el 46,49% de los apoyos totales mientras que el oficialismo se queda con el 39,48%.
Futuro y perspectiva del Monitoreo Digital para predicción de tendencias
Para terminar, sólo queda decir que resta mucho trabajo por hacer, mucha inversión en I+D y horas cerebro para hacer que este nueva forma de predecir tendencias y temas de preocupación en la audiencia digital; que pase de una precisión de cerca del +/- 93% que tenemos hoy, hasta llegar un deseable de entre 97 y 98%.
Todo está por verse; ideas, cabeza y mucha prueba y error harán el resto.
Autores: Diego Corbalán y Gustavo Papasergio