ChatPaper.aiChatPaper

LongEmotion: Medición de la Inteligencia Emocional en Modelos de Lenguaje de Gran Escala en Interacciones de Contexto Extendido

LongEmotion: Measuring Emotional Intelligence of Large Language Models in Long-Context Interaction

September 9, 2025
Autores: Weichu Liu, Jing Xiong, Yuxuan Hu, Zixuan Li, Minghuan Tan, Ningning Mao, Chenyang Zhao, Zhongwei Wan, Chaofan Tao, Wendong Xu, Hui Shen, Chengming Li, Lingpeng Kong, Ngai Wong
cs.AI

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han logrado avances significativos en Inteligencia Emocional (IE) y en la comprensión de contextos extensos. Sin embargo, los puntos de referencia existentes tienden a pasar por alto ciertos aspectos de la IE en escenarios de contexto prolongado, especialmente en entornos prácticos y realistas donde las interacciones son extensas, diversas y a menudo ruidosas. Para avanzar hacia estos entornos realistas, presentamos LongEmotion, un punto de referencia diseñado específicamente para tareas de IE en contextos extensos. Este abarca un conjunto diverso de tareas, incluyendo Clasificación de Emociones, Detección de Emociones, Preguntas y Respuestas sobre Emociones, Conversación Emocional, Resumen Emocional y Expresión Emocional. En promedio, la longitud de entrada para estas tareas alcanza 8,777 tokens, con generación de texto extenso requerida para la Expresión Emocional. Para mejorar el rendimiento bajo restricciones realistas, incorporamos Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) y Modelado Emocional Colaborativo (CoEM, por sus siglas en inglés), y los comparamos con métodos estándar basados en indicaciones. A diferencia de los enfoques convencionales, nuestro método RAG aprovecha tanto el contexto de la conversación como el propio modelo de lenguaje de gran escala como fuentes de recuperación, evitando la dependencia de bases de conocimiento externas. El método CoEM mejora aún más el rendimiento al descomponer la tarea en cinco etapas, integrando tanto la recuperación aumentada como la inyección limitada de conocimiento. Los resultados experimentales muestran que tanto RAG como CoEM mejoran consistentemente el rendimiento relacionado con la IE en la mayoría de las tareas de contexto extenso, avanzando los LLMs hacia aplicaciones de IE más prácticas y del mundo real. Además, realizamos un estudio de caso comparativo en la serie GPT para demostrar las diferencias entre varios modelos en términos de IE. El código está disponible en GitHub en https://github.com/LongEmotion/LongEmotion, y la página del proyecto se puede encontrar en https://longemotion.github.io/.
English
Large language models (LLMs) make significant progress in Emotional Intelligence (EI) and long-context understanding. However, existing benchmarks tend to overlook certain aspects of EI in long-context scenarios, especially under realistic, practical settings where interactions are lengthy, diverse, and often noisy. To move towards such realistic settings, we present LongEmotion, a benchmark specifically designed for long-context EI tasks. It covers a diverse set of tasks, including Emotion Classification, Emotion Detection, Emotion QA, Emotion Conversation, Emotion Summary, and Emotion Expression. On average, the input length for these tasks reaches 8,777 tokens, with long-form generation required for Emotion Expression. To enhance performance under realistic constraints, we incorporate Retrieval-Augmented Generation (RAG) and Collaborative Emotional Modeling (CoEM), and compare them with standard prompt-based methods. Unlike conventional approaches, our RAG method leverages both the conversation context and the large language model itself as retrieval sources, avoiding reliance on external knowledge bases. The CoEM method further improves performance by decomposing the task into five stages, integrating both retrieval augmentation and limited knowledge injection. Experimental results show that both RAG and CoEM consistently enhance EI-related performance across most long-context tasks, advancing LLMs toward more practical and real-world EI applications. Furthermore, we conducted a comparative case study experiment on the GPT series to demonstrate the differences among various models in terms of EI. Code is available on GitHub at https://github.com/LongEmotion/LongEmotion, and the project page can be found at https://longemotion.github.io/.
PDF02September 16, 2025