ChatPaper.aiChatPaper

LongEmotion: 장문 맥락 상호작용에서 대규모 언어 모델의 감성 지능 측정

LongEmotion: Measuring Emotional Intelligence of Large Language Models in Long-Context Interaction

September 9, 2025
저자: Weichu Liu, Jing Xiong, Yuxuan Hu, Zixuan Li, Minghuan Tan, Ningning Mao, Chenyang Zhao, Zhongwei Wan, Chaofan Tao, Wendong Xu, Hui Shen, Chengming Li, Lingpeng Kong, Ngai Wong
cs.AI

초록

대형 언어 모델(LLM)은 감성 지능(EI)과 장문맥 이해에서 상당한 진전을 이루었습니다. 그러나 기존 벤치마크는 특히 상호작용이 길고 다양하며 종종 노이즈가 있는 현실적이고 실용적인 설정에서 장문맥 시나리오의 EI 특정 측면을 간과하는 경향이 있습니다. 이러한 현실적인 설정으로 나아가기 위해, 우리는 장문맥 EI 작업을 위해 특별히 설계된 벤치마크인 LongEmotion을 제시합니다. 이 벤치마크는 감정 분류, 감정 탐지, 감정 질의응답, 감정 대화, 감정 요약, 감정 표현 등 다양한 작업을 포함합니다. 평균적으로, 이러한 작업의 입력 길이는 8,777 토큰에 달하며, 감정 표현을 위해 장문 생성이 요구됩니다. 현실적인 제약 하에서 성능을 향상시키기 위해, 우리는 검색 증강 생성(RAG)과 협력적 감성 모델링(CoEM)을 도입하고 이를 표준 프롬프트 기반 방법과 비교합니다. 기존 접근 방식과 달리, 우리의 RAG 방법은 대화 문맥과 대형 언어 모델 자체를 검색 소스로 활용하여 외부 지식 베이스에 대한 의존을 피합니다. CoEM 방법은 작업을 다섯 단계로 분해하고 검색 증강과 제한된 지식 주입을 통합함으로써 성능을 더욱 향상시킵니다. 실험 결과는 RAG와 CoEM이 대부분의 장문맥 작업에서 EI 관련 성능을 지속적으로 향상시켜 LLM이 더 실용적이고 현실적인 EI 응용으로 나아가도록 돕는 것을 보여줍니다. 또한, 우리는 GPT 시리즈에 대한 비교 사례 연구 실험을 수행하여 다양한 모델 간의 EI 차이를 입증했습니다. 코드는 GitHub(https://github.com/LongEmotion/LongEmotion)에서 확인할 수 있으며, 프로젝트 페이지는 https://longemotion.github.io/에서 찾을 수 있습니다.
English
Large language models (LLMs) make significant progress in Emotional Intelligence (EI) and long-context understanding. However, existing benchmarks tend to overlook certain aspects of EI in long-context scenarios, especially under realistic, practical settings where interactions are lengthy, diverse, and often noisy. To move towards such realistic settings, we present LongEmotion, a benchmark specifically designed for long-context EI tasks. It covers a diverse set of tasks, including Emotion Classification, Emotion Detection, Emotion QA, Emotion Conversation, Emotion Summary, and Emotion Expression. On average, the input length for these tasks reaches 8,777 tokens, with long-form generation required for Emotion Expression. To enhance performance under realistic constraints, we incorporate Retrieval-Augmented Generation (RAG) and Collaborative Emotional Modeling (CoEM), and compare them with standard prompt-based methods. Unlike conventional approaches, our RAG method leverages both the conversation context and the large language model itself as retrieval sources, avoiding reliance on external knowledge bases. The CoEM method further improves performance by decomposing the task into five stages, integrating both retrieval augmentation and limited knowledge injection. Experimental results show that both RAG and CoEM consistently enhance EI-related performance across most long-context tasks, advancing LLMs toward more practical and real-world EI applications. Furthermore, we conducted a comparative case study experiment on the GPT series to demonstrate the differences among various models in terms of EI. Code is available on GitHub at https://github.com/LongEmotion/LongEmotion, and the project page can be found at https://longemotion.github.io/.
PDF582September 16, 2025