El loro de Albina y Chat GPT

Una amiga me contó que cuando era pequeña tenían un loro que hablaba muchísimo e imitaba a su madre a la perfección. Albina era su modelo y repetía muchas de sus expresiones como por ejemplo el mítico: A comerrr! Y lo mejor es que a continuación gritaba los nombres de los siete hermanos por riguroso orden de edad. Un loro muy listo.

Esta anécdota vino a colación cuando yo bromeaba acerca del modo peculiar en que mi amiga hablaba a Alexa y tirando del hilo llegamos a la conclusión de que trataba a su asistente de voz igual que su madre al loro. Esto me hizo pensar que la sabiduría puede ser algo emergente e inexplicable estadísticamente, como la belleza.

Animales que hablan, objetos que hablan, de pequeños creemos firmemente en este fenómeno y de mayores nos sigue fascinando.

No me hables así

Es interesante saber cómo se relaciona una persona con su asistente de voz, imagino que en el futuro será una rama de la psicología. Al parecer mucha gente grita e insulta a sus asistentes de voz, incluso en 2022 Google hizo una campaña en México llamada #Nomehablesasi para frenar la gran cantidad solicitudes agresivas o abusivas de los usuarios a su asistente.

En el otro extremo tenemos a los que dicen: Alexa, cállate por favor. Puede ser por costumbre de decir la coletilla, por distancia formal como un lord inglés con su mayordomo o por ingenuidad tecnológica. Supongo que esto último es lo más probable, porque quién le da las gracias a la cafetera, a la lavadora o cualquier electrodoméstico? El psicólogo de los electrodomésticos diría que esta relación es más sana pero no deja de ser bastante ridícula.

ChatGpt tiene un uso más profesional, lo que da lugar a una interacción más precisa e inquisitiva, aunque cuando salió la versión gratuita y medio mundo probó el nuevo muñeco parlante, mucha gente lo insultaba o le contaba su vida como a un amigo, humanizando la relación en uno u otro sentido en mayor medida que con los asistentes de voz.

Pero incluso en el uso profesional me he dado cuenta de que mucha gente es extremadamente amable con el bot, porque se ha corrido por internet que se consiguen mejores resultados si lo tratas con cortesía. Pienso que no es así, si le pides por favor la receta de pollo al curry, entra en el contexto de tu tono amable y te contesta con zalamerías apropiadas a ese perfil y se despide con un que aproveche como respuesta a tu por favor. En todos estos artículos sobre el tema se cita como referencia un vídeo de Microsoft que en realidad no dice eso exactamente sino que aconseja la cortesía, lo que me hace sospechar que Copilot se encuentra en su propia campaña de #Nomehablesasi.

Humano, demasiado humano…

Pero existe una publicación con validez científica que parece favorecer esta tendencia. Este estudio muestra los efectos de introducir emotional triggers en los prompts de los grandes modelos de lenguaje (LLMs).

En el paper aparece una lista de los 11 Emotional Prompts utilizados y son muy graciosos en plan coaching, tipo tú puedes, stay focus, double check… Solo uno es del tipo que entenderíamos como emocional, el EP2 “esto es muy importante para mi carrera”, pero creo que no fue de los que dió mejor resultado en el benchmark genérico.

Los LLMs tienen arquitectura Transformer o similar, para ellos lo más importante es tener un buen contexto. Los prompts con sesgos emocionales pueden proporcionar un contexto más rico, permitiendo al modelo utilizar su mecanismo de atención para generar respuestas más ajustadas. Pero los medios han difundido una versión infantilizada de este fenómeno con una narrativa tipo dar las gracias a la roomba.

Me pregunto cuál es la fuente de la que absorbe ChatGpt sus contextos emocionales. Evidentemente, los datos más alimenticios estarían en los perfiles públicos de las redes sociales, en los foros, los comentarios de blogs… Todo ello convenientemente filtrado, por supuesto.

En el mismo sentido de crear contexto funciona bien lo de crear máscaras, personas, empezar el prompt diciendo al chat cuál es su rol y cuál es el tuyo. Al menos GPT4, que es lo que yo conozco un poco, es super sensible a estos teatrillos y sus respuestas pueden variar radicalmente si sitúas la acción en un laboratorio de física cuántica o en una reunión de bar.

También he visto por ahí que ChatGPT mejora sus resultados si le prometes una propina en dinero, y esto se considera un fenómeno emergente porque nadie en OpenAI entrenó al bot en este sentido. ¿Pero qué significa “emergente”? A quién le extraña que un chatbot se comporte como un humano promedio.

El loro estocástico

La expresión loro estocástico procede de un paper que desconfía del entendimiento real de los LLMs a pesar de su apariencia razonable. No sabría valorarlo científicamente, y en realidad me da igual, para mi su gran valor es haber consagrado un meme conceptual que resuena en nuestras mentes, el loro estocástico.

Si todos los patrones de la inteligencia humana son a la vez patrones de lenguaje, podemos enseñar esos patrones lingüísticos a una máquina y con ello recreamos la inteligencia de forma indistinguible. Es lo que Turing defendía, parecer inteligente es lo mismo que serlo a efectos prácticos. Y no olvidemos la parte de “a efectos prácticos”, por ejemplo esa similitud en el trabajo de oficina es suficiente.

Actualmente el auge de los robots dotados de IA parece imparable y esta industria necesita que, además de la información textual sobre las emociones que proporcionan los modelos de lenguaje, se añadan parámetros de entonación y énfasis, además de análisis biométricos para identificar y expresar emociones. Y entonces deberemos preguntarnos ¿parecer sensible es lo mismo que serlo? ¿Para cuándo un test de Turing emocional?