LongEmotion : Mesurer l'intelligence émotionnelle des modèles de langage à grande échelle dans les interactions à contexte étendu
LongEmotion: Measuring Emotional Intelligence of Large Language Models in Long-Context Interaction
September 9, 2025
papers.authors: Weichu Liu, Jing Xiong, Yuxuan Hu, Zixuan Li, Minghuan Tan, Ningning Mao, Chenyang Zhao, Zhongwei Wan, Chaofan Tao, Wendong Xu, Hui Shen, Chengming Li, Lingpeng Kong, Ngai Wong
cs.AI
papers.abstract
Les grands modèles de langage (LLMs) réalisent des progrès significatifs en matière d'intelligence émotionnelle (IE) et de compréhension de contextes longs. Cependant, les benchmarks existants ont tendance à négliger certains aspects de l'IE dans des scénarios à contexte long, en particulier dans des cadres pratiques et réalistes où les interactions sont prolongées, diversifiées et souvent bruyantes. Pour progresser vers de tels cadres réalistes, nous présentons LongEmotion, un benchmark spécifiquement conçu pour les tâches d'IE en contexte long. Il couvre un ensemble diversifié de tâches, incluant la classification des émotions, la détection des émotions, les questions-réponses sur les émotions, les conversations émotionnelles, les résumés émotionnels et l'expression des émotions. En moyenne, la longueur des entrées pour ces tâches atteint 8 777 tokens, avec une génération de texte long requise pour l'expression des émotions. Pour améliorer les performances dans des contraintes réalistes, nous intégrons la génération augmentée par récupération (RAG) et la modélisation émotionnelle collaborative (CoEM), et les comparons aux méthodes standard basées sur des prompts. Contrairement aux approches conventionnelles, notre méthode RAG exploite à la fois le contexte de la conversation et le grand modèle de langage lui-même comme sources de récupération, évitant ainsi de dépendre de bases de connaissances externes. La méthode CoEM améliore encore les performances en décomposant la tâche en cinq étapes, intégrant à la fois l'augmentation par récupération et l'injection limitée de connaissances. Les résultats expérimentaux montrent que RAG et CoEM améliorent systématiquement les performances liées à l'IE dans la plupart des tâches à contexte long, faisant progresser les LLMs vers des applications d'IE plus pratiques et réalistes. De plus, nous avons mené une étude comparative sur la série GPT pour démontrer les différences entre divers modèles en termes d'IE. Le code est disponible sur GitHub à l'adresse https://github.com/LongEmotion/LongEmotion, et la page du projet peut être consultée à l'adresse https://longemotion.github.io/.
English
Large language models (LLMs) make significant progress in Emotional
Intelligence (EI) and long-context understanding. However, existing benchmarks
tend to overlook certain aspects of EI in long-context scenarios, especially
under realistic, practical settings where interactions are lengthy, diverse,
and often noisy. To move towards such realistic settings, we present
LongEmotion, a benchmark specifically designed for long-context EI tasks. It
covers a diverse set of tasks, including Emotion Classification, Emotion
Detection, Emotion QA, Emotion Conversation, Emotion Summary, and Emotion
Expression. On average, the input length for these tasks reaches 8,777 tokens,
with long-form generation required for Emotion Expression. To enhance
performance under realistic constraints, we incorporate Retrieval-Augmented
Generation (RAG) and Collaborative Emotional Modeling (CoEM), and compare them
with standard prompt-based methods. Unlike conventional approaches, our RAG
method leverages both the conversation context and the large language model
itself as retrieval sources, avoiding reliance on external knowledge bases. The
CoEM method further improves performance by decomposing the task into five
stages, integrating both retrieval augmentation and limited knowledge
injection. Experimental results show that both RAG and CoEM consistently
enhance EI-related performance across most long-context tasks, advancing LLMs
toward more practical and real-world EI applications. Furthermore, we conducted
a comparative case study experiment on the GPT series to demonstrate the
differences among various models in terms of EI. Code is available on GitHub at
https://github.com/LongEmotion/LongEmotion, and the project page can be found
at https://longemotion.github.io/.