IntentGrasp: Ein umfassender Benchmark für das Intentionsverständnis

Zusammenfassung

Die genaue Erfassung der Absicht hinter Sprache, Konversation und Text ist entscheidend für die Entwicklung hilfreicher Assistenzsysteme auf Basis Großer Sprachmodelle (LLMs). Diese Arbeit führt IntentGrasp ein, einen umfassenden Benchmark zur Bewertung der Absichtserfassungsfähigkeit von LLMs. Abgeleitet aus 49 hochwertigen, frei lizenzierten Korpora aus 12 verschiedenen Domänen wird IntentGrasp durch Kuratierung der Quelldatensätze, Kontextualisierung der Absichtslabels und Vereinheitlichung des Aufgabenformats erstellt. IntentGrasp umfasst einen groß angelegten Trainingssatz mit 262.759 Instanzen sowie zwei Evaluierungssets: ein All-Set mit 12.909 Testfällen und ein ausgewogeneres und anspruchsvolleres Gem-Set mit 470 Fällen. Umfangreiche Evaluierungen an 20 LLMs aus 7 Familien (einschließlich führender Modelle wie GPT-5.4, Gemini-3.1-Pro und Claude-Opus-4.7) zeigen unbefriedigende Ergebnisse mit Werten unter 60 % im All-Set und unter 25 % im Gem-Set. Besonders bemerkenswert ist, dass 17 der 20 getesteten Modelle im Gem-Set schlechter abschneiden als eine Zufallsraten-Baseline (15,2 %), während die geschätzte menschliche Leistung bei etwa 81,1 % liegt, was erheblichen Verbesserungsspielraum aufzeigt. Zur Stärkung dieser Fähigkeit schlägt diese Arbeit das Intentional Fine-Tuning (IFT) vor, bei dem die Modelle auf dem Trainingssatz von IntentGrasp feinjustiert werden, was zu signifikanten Steigerungen von über 30 F1-Punkten im All-Set und über 20 Punkten im Gem-Set führt. Bezeichnenderweise belegen die Leave-One-Domain-Out (Lodo)-Experimente zudem die starke domänenübergreifende Generalisierbarkeit von IFT und bestätigen, dass es sich um einen vielversprechenden Ansatz handelt, um die Absichtserfassung von LLMs wesentlich zu verbessern. Insgesamt wirft diese Studie durch die Bewertung und Förderung der Absichtserfassungsfähigkeit ein Licht auf einen vielversprechenden Weg zu zielgerichteteren, leistungsfähigeren und sichereren KI-Assistenten zum Nutzen des Menschen und für das Gemeinwohl.

English

Accurately understanding the intent behind speech, conversation, and writing is crucial to the development of helpful Large Language Model (LLM) assistants. This paper introduces IntentGrasp, a comprehensive benchmark for evaluating the intent understanding capability of LLMs. Derived from 49 high-quality, open-licensed corpora spanning 12 diverse domains, IntentGrasp is constructed through source datasets curation, intent label contextualization, and task format unification. IntentGrasp contains a large-scale training set of 262,759 instances and two evaluation sets: an All Set of 12,909 test cases and a more balanced and challenging Gem Set of 470 cases. Extensive evaluations on 20 LLMs across 7 families (including frontier models such as GPT-5.4, Gemini-3.1-Pro, and Claude-Opus-4.7) demonstrate unsatisfactory performance, with scores below 60% on All Set and below 25% on Gem set. Notably, 17 out of 20 tested models perform worse than a random-guess baseline (15.2%) on Gem Set, while the estimated human performance is ~81.1%, showing substantial room for improvement. To enhance such ability, this paper proposes Intentional Fine-Tuning (IFT), which fine-tunes the models on the training set in IntentGrasp, yielding significant gains of 30+ F1 points on All Set and 20+ points on Gem Set. Tellingly, the leave-one-domain-out (Lodo) experiments further demonstrate the strong cross-domain generalizability of IFT, verifying that it is a promising approach to substantially enhancing the intent understanding of LLMs. Overall, by benchmarking and boosting intent understanding ability, this study sheds light on a promising path towards more intentional, capable, and safe AI assistants for human benefits and social good.

IntentGrasp: Ein umfassender Benchmark für das Intentionsverständnis

IntentGrasp: A Comprehensive Benchmark for Intent Understanding

Zusammenfassung

Support