IntentGrasp: Комплексный бенчмарк для понимания намерений

Аннотация

Точное понимание намерений, стоящих за речью, диалогом и письменным текстом, имеет решающее значение для создания полезных ассистентов на основе больших языковых моделей (LLM). В данной статье представлен IntentGrasp — комплексный бенчмарк для оценки способности LLM понимать намерения. Разработанный на основе 49 высококачественных корпусов с открытыми лицензиями, охватывающих 12 разнообразных доменов, IntentGrasp создается путем курирования исходных наборов данных, контекстуализации меток намерений и унификации формата задач. IntentGrasp содержит крупномасштабный обучающий набор из 262 759 примеров и два оценочных набора: полный набор (All Set) из 12 909 тестовых случаев и более сбалансированный и сложный набор Gem Set из 470 случаев. Обширные оценки 20 LLM из 7 семейств (включая передовые модели, такие как GPT-5.4, Gemini-3.1-Pro и Claude-Opus-4.7) демонстрируют неудовлетворительные результаты: показатели ниже 60% на All Set и ниже 25% на Gem Set. Примечательно, что 17 из 20 протестированных моделей показывают результаты хуже случайного угадывания (15,2%) на Gem Set, в то время как предполагаемая производительность человека составляет ~81,1%, что указывает на значительный потенциал для улучшения. Для повышения этой способности в статье предлагается целенаправленная точная настройка (Intentional Fine-Tuning, IFT), которая дообучает модели на обучающем наборе IntentGrasp, обеспечивая значительный прирост: более 30 пунктов F1 на All Set и более 20 пунктов на Gem Set. Показательно, что эксперименты с исключением одного домена (leave-one-domain-out, Lodo) дополнительно демонстрируют сильную кросс-доменную обобщаемость IFT, подтверждая, что это перспективный подход к существенному улучшению понимания намерений LLM. В целом, оценивая и улучшая способность понимать намерения, данное исследование открывает многообещающий путь к созданию более целенаправленных, компетентных и безопасных ИИ-ассистентов на благо человечества и общества.

English

Accurately understanding the intent behind speech, conversation, and writing is crucial to the development of helpful Large Language Model (LLM) assistants. This paper introduces IntentGrasp, a comprehensive benchmark for evaluating the intent understanding capability of LLMs. Derived from 49 high-quality, open-licensed corpora spanning 12 diverse domains, IntentGrasp is constructed through source datasets curation, intent label contextualization, and task format unification. IntentGrasp contains a large-scale training set of 262,759 instances and two evaluation sets: an All Set of 12,909 test cases and a more balanced and challenging Gem Set of 470 cases. Extensive evaluations on 20 LLMs across 7 families (including frontier models such as GPT-5.4, Gemini-3.1-Pro, and Claude-Opus-4.7) demonstrate unsatisfactory performance, with scores below 60% on All Set and below 25% on Gem set. Notably, 17 out of 20 tested models perform worse than a random-guess baseline (15.2%) on Gem Set, while the estimated human performance is ~81.1%, showing substantial room for improvement. To enhance such ability, this paper proposes Intentional Fine-Tuning (IFT), which fine-tunes the models on the training set in IntentGrasp, yielding significant gains of 30+ F1 points on All Set and 20+ points on Gem Set. Tellingly, the leave-one-domain-out (Lodo) experiments further demonstrate the strong cross-domain generalizability of IFT, verifying that it is a promising approach to substantially enhancing the intent understanding of LLMs. Overall, by benchmarking and boosting intent understanding ability, this study sheds light on a promising path towards more intentional, capable, and safe AI assistants for human benefits and social good.

IntentGrasp: Комплексный бенчмарк для понимания намерений

IntentGrasp: A Comprehensive Benchmark for Intent Understanding

Аннотация

Support