IntentGrasp: 의도 이해를 위한 포괄적인 벤치마크
IntentGrasp: A Comprehensive Benchmark for Intent Understanding
May 7, 2026
저자: Yuwei Yin, Chuyuan Li, Giuseppe Carenini
cs.AI
초록
음성, 대화 및 글쓰기에 내재된 의도를 정확히 이해하는 것은 유용한 대규모 언어 모델(LLM) 어시스턴트 개발에 필수적이다. 본 논문은 LLM의 의도 이해 능력을 평가하기 위한 포괄적인 벤치마크인 IntentGrasp를 소개한다. IntentGrasp는 12개 다양한 도메인에 걸친 49개의 고품질 오픈 라이선스 말뭉치로부터 파생되었으며, 원천 데이터셋 선별, 의도 레이블 맥락화, 작업 형식 통일을 통해 구축되었다. IntentGrasp는 262,759개 인스턴스로 구성된 대규모 학습 세트와 12,909개 테스트 사례로 구성된 All Set, 그리고 더 균형 잡히고 도전적인 470개 사례의 Gem Set의 두 가지 평가 세트를 포함한다. 7개 계열에 속한 20개의 LLM(GPT-5.4, Gemini-3.1-Pro, Claude-Opus-4.7과 같은 최첨단 모델 포함)에 대한 광범위한 평가 결과, All Set에서 60% 미만, Gem Set에서 25% 미만의 점수로 만족스럽지 못한 성능을 보였다. 주목할 점은, 테스트된 20개 모델 중 17개가 Gem Set에서 무작위 추측 기준선(15.2%)보다 낮은 성능을 보인 반면, 추정된 인간 성능은 약 81.1%로 상당한 개선 여지가 있음을 보여준다. 이러한 능력을 향상시키기 위해, 본 논문은 의도적 미세 조정(IFT)을 제안한다. IFT는 IntentGrasp의 학습 세트로 모델을 미세 조정하여 All Set에서 30+ F1 점수, Gem Set에서 20+ 점수의 유의미한 향상을 가져온다. 특히, 도메인 제외(Leave-one-domain-out, Lodo) 실험은 IFT의 강력한 교차 도메인 일반화 능력을 입증하며, 이는 LLM의 의도 이해를 실질적으로 향상시키는 유망한 접근법임을 확인시켜 준다. 전반적으로, 의도 이해 능력을 벤치마킹하고 촉진함으로써, 본 연구는 인간의 이익과 사회적 선을 위해 더욱 의도적이고 유능하며 안전한 AI 어시스턴트를 향한 유망한 길을 제시한다.
English
Accurately understanding the intent behind speech, conversation, and writing is crucial to the development of helpful Large Language Model (LLM) assistants. This paper introduces IntentGrasp, a comprehensive benchmark for evaluating the intent understanding capability of LLMs. Derived from 49 high-quality, open-licensed corpora spanning 12 diverse domains, IntentGrasp is constructed through source datasets curation, intent label contextualization, and task format unification. IntentGrasp contains a large-scale training set of 262,759 instances and two evaluation sets: an All Set of 12,909 test cases and a more balanced and challenging Gem Set of 470 cases. Extensive evaluations on 20 LLMs across 7 families (including frontier models such as GPT-5.4, Gemini-3.1-Pro, and Claude-Opus-4.7) demonstrate unsatisfactory performance, with scores below 60% on All Set and below 25% on Gem set. Notably, 17 out of 20 tested models perform worse than a random-guess baseline (15.2%) on Gem Set, while the estimated human performance is ~81.1%, showing substantial room for improvement. To enhance such ability, this paper proposes Intentional Fine-Tuning (IFT), which fine-tunes the models on the training set in IntentGrasp, yielding significant gains of 30+ F1 points on All Set and 20+ points on Gem Set. Tellingly, the leave-one-domain-out (Lodo) experiments further demonstrate the strong cross-domain generalizability of IFT, verifying that it is a promising approach to substantially enhancing the intent understanding of LLMs. Overall, by benchmarking and boosting intent understanding ability, this study sheds light on a promising path towards more intentional, capable, and safe AI assistants for human benefits and social good.