LongEmotion: Messung der emotionalen Intelligenz von Large Language Models in langkontextuellen Interaktionen
LongEmotion: Measuring Emotional Intelligence of Large Language Models in Long-Context Interaction
September 9, 2025
papers.authors: Weichu Liu, Jing Xiong, Yuxuan Hu, Zixuan Li, Minghuan Tan, Ningning Mao, Chenyang Zhao, Zhongwei Wan, Chaofan Tao, Wendong Xu, Hui Shen, Chengming Li, Lingpeng Kong, Ngai Wong
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) machen bedeutende Fortschritte in Bezug auf Emotionale Intelligenz (EI) und das Verständnis langer Kontexte. Bestehende Benchmarks neigen jedoch dazu, bestimmte Aspekte der EI in langen Kontextszenarien zu übersehen, insbesondere unter realistischen, praktischen Bedingungen, in denen Interaktionen lang, vielfältig und oft verrauscht sind. Um uns solchen realistischen Bedingungen anzunähern, präsentieren wir LongEmotion, einen Benchmark, der speziell für langkontextbezogene EI-Aufgaben entwickelt wurde. Er deckt eine Vielzahl von Aufgaben ab, darunter Emotionale Klassifikation, Emotionale Erkennung, Emotionale Frage-Antwort, Emotionale Konversation, Emotionale Zusammenfassung und Emotionale Expression. Im Durchschnitt erreicht die Eingabelänge für diese Aufgaben 8.777 Tokens, wobei für die Emotionale Expression eine langformige Generierung erforderlich ist. Um die Leistung unter realistischen Einschränkungen zu verbessern, integrieren wir Retrieval-Augmented Generation (RAG) und Collaborative Emotional Modeling (CoEM) und vergleichen sie mit standardmäßigen promptbasierten Methoden. Im Gegensatz zu konventionellen Ansätzen nutzt unsere RAG-Methode sowohl den Konversationskontext als auch das große Sprachmodell selbst als Retrieval-Quellen und vermeidet so die Abhängigkeit von externen Wissensdatenbanken. Die CoEM-Methode verbessert die Leistung weiter, indem sie die Aufgabe in fünf Stufen zerlegt und sowohl Retrieval-Augmentierung als auch begrenzte Wissensinjektion integriert. Experimentelle Ergebnisse zeigen, dass sowohl RAG als auch CoEM die EI-bezogene Leistung bei den meisten langkontextbezogenen Aufgaben kontinuierlich verbessern und LLMs in Richtung praktischerer und realitätsnaher EI-Anwendungen vorantreiben. Darüber hinaus haben wir ein vergleichendes Fallstudienexperiment mit der GPT-Serie durchgeführt, um die Unterschiede zwischen verschiedenen Modellen in Bezug auf EI zu demonstrieren. Der Code ist auf GitHub unter https://github.com/LongEmotion/LongEmotion verfügbar, und die Projektseite findet sich unter https://longemotion.github.io/.
English
Large language models (LLMs) make significant progress in Emotional
Intelligence (EI) and long-context understanding. However, existing benchmarks
tend to overlook certain aspects of EI in long-context scenarios, especially
under realistic, practical settings where interactions are lengthy, diverse,
and often noisy. To move towards such realistic settings, we present
LongEmotion, a benchmark specifically designed for long-context EI tasks. It
covers a diverse set of tasks, including Emotion Classification, Emotion
Detection, Emotion QA, Emotion Conversation, Emotion Summary, and Emotion
Expression. On average, the input length for these tasks reaches 8,777 tokens,
with long-form generation required for Emotion Expression. To enhance
performance under realistic constraints, we incorporate Retrieval-Augmented
Generation (RAG) and Collaborative Emotional Modeling (CoEM), and compare them
with standard prompt-based methods. Unlike conventional approaches, our RAG
method leverages both the conversation context and the large language model
itself as retrieval sources, avoiding reliance on external knowledge bases. The
CoEM method further improves performance by decomposing the task into five
stages, integrating both retrieval augmentation and limited knowledge
injection. Experimental results show that both RAG and CoEM consistently
enhance EI-related performance across most long-context tasks, advancing LLMs
toward more practical and real-world EI applications. Furthermore, we conducted
a comparative case study experiment on the GPT series to demonstrate the
differences among various models in terms of EI. Code is available on GitHub at
https://github.com/LongEmotion/LongEmotion, and the project page can be found
at https://longemotion.github.io/.