IntentGrasp: Een uitgebreide benchmark voor intentiebegrip

Samenvatting

Het nauwkeurig begrijpen van de intentie achter spraak, gesprek en geschreven tekst is cruciaal voor de ontwikkeling van behulpzame Large Language Model (LLM)-assistenten. Dit artikel introduceert IntentGrasp, een uitgebreide benchmark voor het evalueren van het intentiebegrip van LLM's. Afgeleid van 49 hoogwaardige, open-licentiecorpora uit 12 uiteenlopende domeinen, is IntentGrasp opgebouwd door middel van het cureren van brongegevens, het contextualiseren van intentielabels en het uniformeren van taakformaten. IntentGrasp bevat een grootschalige trainingsset van 262.759 instanties en twee evaluatiesets: een All Set van 12.909 testgevallen en een evenwichtigere en uitdagendere Gem Set van 470 gevallen. Uitgebreide evaluaties op 20 LLM's uit 7 families (waaronder geavanceerde modellen zoals GPT-5.4, Gemini-3.1-Pro en Claude-Opus-4.7) tonen onbevredigende prestaties aan, met scores onder 60% op All Set en onder 25% op Gem Set. Met name 17 van de 20 geteste modellen presteren slechter dan een willekeurige gok-baseline (15,2%) op Gem Set, terwijl de geschatte menselijke prestatie ~81,1% bedraagt, wat aanzienlijke ruimte voor verbetering laat zien. Om dit vermogen te verbeteren, stelt dit artikel Intentional Fine-Tuning (IFT) voor, waarbij de modellen worden fijngestemd op de trainingsset in IntentGrasp, wat leidt tot aanzienlijke winsten van 30+ F1-punten op All Set en 20+ punten op Gem Set. Veelzeggend is dat de leave-one-domain-out (Lodo)-experimenten verder de sterke cross-domein generaliseerbaarheid van IFT aantonen, wat bevestigt dat het een veelbelovende benadering is om het intentiebegrip van LLM's aanzienlijk te verbeteren. Al met al werpt deze studie door het benchmarken en verbeteren van intentiebegrip licht op een veelbelovende weg naar meer intentionele, capabele en veilige AI-assistenten voor menselijk welzijn en maatschappelijk goed.

English

Accurately understanding the intent behind speech, conversation, and writing is crucial to the development of helpful Large Language Model (LLM) assistants. This paper introduces IntentGrasp, a comprehensive benchmark for evaluating the intent understanding capability of LLMs. Derived from 49 high-quality, open-licensed corpora spanning 12 diverse domains, IntentGrasp is constructed through source datasets curation, intent label contextualization, and task format unification. IntentGrasp contains a large-scale training set of 262,759 instances and two evaluation sets: an All Set of 12,909 test cases and a more balanced and challenging Gem Set of 470 cases. Extensive evaluations on 20 LLMs across 7 families (including frontier models such as GPT-5.4, Gemini-3.1-Pro, and Claude-Opus-4.7) demonstrate unsatisfactory performance, with scores below 60% on All Set and below 25% on Gem set. Notably, 17 out of 20 tested models perform worse than a random-guess baseline (15.2%) on Gem Set, while the estimated human performance is ~81.1%, showing substantial room for improvement. To enhance such ability, this paper proposes Intentional Fine-Tuning (IFT), which fine-tunes the models on the training set in IntentGrasp, yielding significant gains of 30+ F1 points on All Set and 20+ points on Gem Set. Tellingly, the leave-one-domain-out (Lodo) experiments further demonstrate the strong cross-domain generalizability of IFT, verifying that it is a promising approach to substantially enhancing the intent understanding of LLMs. Overall, by benchmarking and boosting intent understanding ability, this study sheds light on a promising path towards more intentional, capable, and safe AI assistants for human benefits and social good.

IntentGrasp: Een uitgebreide benchmark voor intentiebegrip

IntentGrasp: A Comprehensive Benchmark for Intent Understanding

Samenvatting

Support