LongEmotion: Medición de la Inteligencia Emocional en Modelos de Lenguaje de Gran Escala en Interacciones de Contexto Extendido
LongEmotion: Measuring Emotional Intelligence of Large Language Models in Long-Context Interaction
September 9, 2025
Autores: Weichu Liu, Jing Xiong, Yuxuan Hu, Zixuan Li, Minghuan Tan, Ningning Mao, Chenyang Zhao, Zhongwei Wan, Chaofan Tao, Wendong Xu, Hui Shen, Chengming Li, Lingpeng Kong, Ngai Wong
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han logrado avances significativos en Inteligencia Emocional (IE) y en la comprensión de contextos extensos. Sin embargo, los puntos de referencia existentes tienden a pasar por alto ciertos aspectos de la IE en escenarios de contexto prolongado, especialmente en entornos prácticos y realistas donde las interacciones son extensas, diversas y a menudo ruidosas. Para avanzar hacia estos entornos realistas, presentamos LongEmotion, un punto de referencia diseñado específicamente para tareas de IE en contextos extensos. Este abarca un conjunto diverso de tareas, incluyendo Clasificación de Emociones, Detección de Emociones, Preguntas y Respuestas sobre Emociones, Conversación Emocional, Resumen Emocional y Expresión Emocional. En promedio, la longitud de entrada para estas tareas alcanza 8,777 tokens, con generación de texto extenso requerida para la Expresión Emocional. Para mejorar el rendimiento bajo restricciones realistas, incorporamos Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) y Modelado Emocional Colaborativo (CoEM, por sus siglas en inglés), y los comparamos con métodos estándar basados en indicaciones. A diferencia de los enfoques convencionales, nuestro método RAG aprovecha tanto el contexto de la conversación como el propio modelo de lenguaje de gran escala como fuentes de recuperación, evitando la dependencia de bases de conocimiento externas. El método CoEM mejora aún más el rendimiento al descomponer la tarea en cinco etapas, integrando tanto la recuperación aumentada como la inyección limitada de conocimiento. Los resultados experimentales muestran que tanto RAG como CoEM mejoran consistentemente el rendimiento relacionado con la IE en la mayoría de las tareas de contexto extenso, avanzando los LLMs hacia aplicaciones de IE más prácticas y del mundo real. Además, realizamos un estudio de caso comparativo en la serie GPT para demostrar las diferencias entre varios modelos en términos de IE. El código está disponible en GitHub en https://github.com/LongEmotion/LongEmotion, y la página del proyecto se puede encontrar en https://longemotion.github.io/.
English
Large language models (LLMs) make significant progress in Emotional
Intelligence (EI) and long-context understanding. However, existing benchmarks
tend to overlook certain aspects of EI in long-context scenarios, especially
under realistic, practical settings where interactions are lengthy, diverse,
and often noisy. To move towards such realistic settings, we present
LongEmotion, a benchmark specifically designed for long-context EI tasks. It
covers a diverse set of tasks, including Emotion Classification, Emotion
Detection, Emotion QA, Emotion Conversation, Emotion Summary, and Emotion
Expression. On average, the input length for these tasks reaches 8,777 tokens,
with long-form generation required for Emotion Expression. To enhance
performance under realistic constraints, we incorporate Retrieval-Augmented
Generation (RAG) and Collaborative Emotional Modeling (CoEM), and compare them
with standard prompt-based methods. Unlike conventional approaches, our RAG
method leverages both the conversation context and the large language model
itself as retrieval sources, avoiding reliance on external knowledge bases. The
CoEM method further improves performance by decomposing the task into five
stages, integrating both retrieval augmentation and limited knowledge
injection. Experimental results show that both RAG and CoEM consistently
enhance EI-related performance across most long-context tasks, advancing LLMs
toward more practical and real-world EI applications. Furthermore, we conducted
a comparative case study experiment on the GPT series to demonstrate the
differences among various models in terms of EI. Code is available on GitHub at
https://github.com/LongEmotion/LongEmotion, and the project page can be found
at https://longemotion.github.io/.