Monitoreo digital para predicción de tendencias: De la idea al resultado
Aproximadamente en enero de 2018 decidimos (el equipo Scidata junto a Diego Corbalán) comenzar a experimentar si era posible utilizar el monitoreo digital para predicción de tendencias.
Especialmente la predicción de tendencias de respaldo político. En este sentido, la idea era entender en principio, la percepción de gestión e imagen digital de los políticos; pero fundamentalmente su proyección como candidatos, con una evolución ideal del proyecto de llegar a la predicción de la presidencia en el proceso electoral que comenzaba el siguiente año.
Listening de medios digitales. Explicación y un poco de retrospectiva
Retrospectiva: monitorear las redes, allá lejos y hace tiempo
Cuando los 4 fundadores de SciData Argentina comenzamos con esta aventura, nuestra idea original era esta: monitorear los medios digitales, pero diferenciándonos del resto: en lugar de entregar bajadas de datos y lindos tableros de información en tiempo real e histórica para mostrar en un televisor, queríamos entregar insights y predicción de tendencias para poder tomar decisiones antes que ocurra el problema. El uso general, incluso hoy en día, es el análisis post mortem. Entender qué pasó a partir de información pasada y corregir el rumbo.
Obviamente era demasiado para una startup de 4 personas y tuvimos que recalcular (Gracias Juan Damia por tu sabio consejo temprano y a tiempo) y esperar 4 años y encontrarnos con la capacidad análisis y experiencia para construir noticias basadas en datos de Diego Corbalán para llegar a este punto.
¿Qué es el listening de medios digitales?
Es poner a trabajar a una herramienta de búsqueda de texto que tiene como fuente de entrada de datos palabras claves: palabras o conjuntos de palabras que queremos a encontrar en todos los medios digitales que existen en Internet.
Entendemos como medios digitales a cualquier plataforma conectada a internet que expone públicamente texto escaneable por la herramienta.
¿Que tipo de información?: opiniones de usuarios, comentarios en diarios, blogs, redes sociales como Twitter, páginas y grupos públicos de Facebook, publicaciones de usuarios enviadas como públicas en esa red y en Instagram, etc. En resumen, cualquier información gráfica, de texto o meta información catalogada como pública en internet.
Haciendo match y no en Tinder
Una vez que las palabras claves configuradas como entrada de datos en la herramienta hace un match ( Como en Tinder 🤭) con la información pública disponible en Internet, se baja en la base de datos de la procesadora digital – pongamos una IA, con mucho de I pero más de H (Humano) que de A – y se cataloga dentro de un proyecto o categoría; no es ni más ni menos que un conjunto de palabras claves que cumplen con un mismo criterio.
Por ejemplo, si quiero buscar en la herramienta información sobre frutas, voy a crear un proyecto o categoría frutas, que busque en Internet cualquier cosa escrita que coincida con mis palabras claves: banana, manzana, peras, uvas, etc.
Clasificación, etiquetado y detección de percepción de datos
Una vez que la información encontrada sobre frutas es descargada en la herramienta, la IA comienza la agrupación en sub categorías, etiquetado y detección de temas de conversación y percepción de las mismas.
Por ejemplo, para el caso de las frutas, crearía los subgrupos cítricos, secas, dulces, ácidas, etc. Luego le agrega metainformación, por ejemplo si hablan del sabor, frescura, estado, precio, calidad; y por último el sentimiento o percepción sobre esa fruta en particular: si fue positiva, negativa o neutral.
En esta parte de la percepción, es justo donde la I de la IA no es tan inteligente y necesita de expertos en lenguaje y estructuras semánticas y sintácticas. Mejor conocidos como lingüistas. Ya que es el motor de clasificación es incapaz de reconocer ironías, dobles sentidos o temas de conversación superpuestos.
Sobre perfiles, trolls y nivel de influencia
Desde ya, y antes que pregunten ¿Pero qué hacen con los trolls? ¿Salen en los informes? La respuesta es CATEGÓRICAMENTE, NO.
Lo primero que hay que tener en cuenta es que existen filtros de influencia y medición de actividad/cantidad de seguidores y seguidos. Esto significa que el 90 % de lo trolls son eliminados. Del 10% restante se filtran los conocidos y quedan un 3% no identificables que escapan al filtro sin importar ideología o a favor o en contra de qué está. Se escapan del filtro para todos por igual.
Comenzando el experimento de Monitoreo digital para predicción de tendencias.
Fue así que desde Scidata y con el enfoque periodístico de Diego Corbalan comenzamos con un experimento. Encontrar la fórmula (secreta como la de la gaseosa cola) de interpretar menciones en medios digitales como rechazos o apoyos políticos y traducirlos luego a intención de voto. Obteniendo resultados como el siguiente.
La Big Data habla, pero la política no siempre la escucha
En el estado de Facebook que vemos insertado podemos ver cómo a diferencia de las encuestadoras habituales nos habíamos acercado prácticamente un 90% a la diferencia de las PASO.
Para llegar a esto, previamente, probamos nuestros algoritmos en la última elección de España y de cara a las elecciones generales. Usamos los debates para terminar de ajustar los motores.
Acá queda más claro el aprovechamiento que hizo el #FITUnidad del #DebatePresidencial @NicolasdelCano obtuvo el mayor nivel de “reach”.
— 🔢Diego🔣Corbalán🆗️ (@diegoacorbalan) October 14, 2019
@RLavagna logró el alcance más bajo.https://t.co/NGtwBnqy7b pic.twitter.com/Xkna5sTVaX
Estos son los hashtags de más impacto en el perfil de #Macri y #AlbertoPresidente https://t.co/NGtwBnqy7b pic.twitter.com/w97AWMs5qr
— 🔢Diego🔣Corbalán🆗️ (@diegoacorbalan) October 14, 2019
¿Por quién doblan las campanas de Monitoreo digital para predicción de tendencias ?
En el post de Social News: ¿Por quién doblan las campanas (Peronistas)? ya veníamos anticipando la tendencia de las elecciones generales.
La campaña se “peroniza”, lenta pero inexorablemente por dos fenómenos: el crecimiento del peso electoral de @MiguelPichetto en la fórmula de @juntoscambioar y el de @alferdez en @FrenteDeTodos https://t.co/wzWuisuaI6 pic.twitter.com/2rRud3exZR
— 🔢Diego🔣Corbalán🆗️ (@diegoacorbalan) September 28, 2019
Es cierto que la campaña por las presidenciales quedó desabrida. Los contundentes resultados de las PASO contribuyeron a este fenómeno.
«Por quién doblan las campanas (peronistas)»
Pero la larga marcha electoral de los dos frentes en pugna deja traslucir algunos elementos de análisis que pueden marcar la diferencia.
De acuerdo con el análisis realizado junto con Scidata, la particularidad de esta campaña por la primer (¿y única?) vuelta electoral que defina al próximo presidente puede estar en sus vices.
En el caso de la fórmula oficialista de Juntos por el Cambio, el senador Miguel Ángel Pichetto se fue convirtiendo en sostén del binomio tras la debacle de la primera vuelta.
No únicamente para verificar – como todos decían – que Alberto Fernández ganaba en primera vuelta. También para anticipar la levantada y comenzar a avisar que la diferencia venía alrededor de los 9 puntos – algo casi nadie preveía –
Medimos el vínculo digital (engage) entre las 3 movilizaciones callejeras post-PASO convocadas en redes sociales
— 🔢Diego🔣Corbalán🆗️ (@diegoacorbalan) September 12, 2019
La movilización x @mariuvidal fue la más rendimiento, por sobre #24AEnTodoElPais de respaldo a @mauriciomacri y #SiVosQueres x @MatiasLammens https://t.co/LsB8ToKHdt pic.twitter.com/CwBYiLo461
Finalmente: anticipando resultados utilizando el monitoreo digital para predicción de tendencias.
Con tanto dato de elecciones pasadas, ajenas y propias, PASO, debates y marchas. Finalmente pudimos ajustar nuestros algoritmos para llegar a alcanzar lo que nadie (salvo una consultora Brasileña). Un final en primera vuelta con una diferencia entre +/- 2 puntos de error en los algoritmos.
Por otra parte, al medir el respaldo político de los usuarios argentinos, el binomio del kirchnerismo alcanza el 46,49% de los apoyos totales mientras que el oficialismo se queda con el 39,48%.
En las redes, Alberto Fernández gana las presidenciales con menos margen que en las PASO (VIERNES 25 DE OCTUBRE)
Futuro y perspectiva del Monitoreo Digital para predicción de tendencias
Para terminar, sólo queda decir que resta mucho trabajo por hacer, mucha inversión en I+D y horas cerebro para hacer que este nueva forma de predecir tendencias y temas de preocupación en la audiencia digital; que pase de una precisión de cerca del +/- 93% que tenemos hoy, hasta llegar un deseable de entre 97 y 98%.
Todo está por verse; ideas, cabeza y mucha prueba y error harán el resto.
Autores: Diego Corbalán y Gustavo Papasergio