IntenciónGrasp: Un Punto de Referencia Integral para la Comprensión de Intenciones

Resumen

Comprender con precisión la intención detrás del habla, la conversación y la escritura es crucial para el desarrollo de asistentes útiles basados en Modelos de Lenguaje a Gran Escala (LLM). Este artículo presenta IntentGrasp, un punto de referencia integral para evaluar la capacidad de comprensión de intenciones en LLMs. Derivado de 49 corpus de alta calidad y licencia abierta que abarcan 12 dominios diversos, IntentGrasp se construye mediante la curación de conjuntos de datos fuente, la contextualización de etiquetas de intención y la unificación de formatos de tareas. IntentGrasp contiene un conjunto de entrenamiento a gran escala de 262,759 instancias y dos conjuntos de evaluación: un Conjunto Completo de 12,909 casos de prueba y un Conjunto Gemelo más equilibrado y desafiante de 470 casos. Evaluaciones exhaustivas en 20 LLMs de 7 familias (incluyendo modelos frontera como GPT-5.4, Gemini-3.1-Pro y Claude-Opus-4.7) demuestran un rendimiento insatisfactorio, con puntuaciones inferiores al 60% en el Conjunto Completo y menores al 25% en el Conjunto Gemelo. Notablemente, 17 de los 20 modelos evaluados obtienen peores resultados que una línea base de adivinación aleatoria (15.2%) en el Conjunto Gemelo, mientras que el rendimiento humano estimado es ~81.1%, mostrando un margen sustancial de mejora. Para potenciar esta capacidad, este artículo propone el Ajuste Fino Intencional (IFT), que ajusta los modelos en el conjunto de entrenamiento de IntentGrasp, logrando mejoras significativas de más de 30 puntos F1 en el Conjunto Completo y más de 20 puntos en el Conjunto Gemelo. Reveladoramente, los experimentos de exclusión de un dominio (Lodo) demuestran además la fuerte generalización cruzada del IFT, verificando que es un enfoque prometedor para mejorar sustancialmente la comprensión de intenciones en LLMs. En conjunto, al evaluar y potenciar la capacidad de comprensión de intenciones, este estudio ilumina un camino prometedor hacia asistentes de IA más intencionales, capaces y seguros para el beneficio humano y el bien social.

English

Accurately understanding the intent behind speech, conversation, and writing is crucial to the development of helpful Large Language Model (LLM) assistants. This paper introduces IntentGrasp, a comprehensive benchmark for evaluating the intent understanding capability of LLMs. Derived from 49 high-quality, open-licensed corpora spanning 12 diverse domains, IntentGrasp is constructed through source datasets curation, intent label contextualization, and task format unification. IntentGrasp contains a large-scale training set of 262,759 instances and two evaluation sets: an All Set of 12,909 test cases and a more balanced and challenging Gem Set of 470 cases. Extensive evaluations on 20 LLMs across 7 families (including frontier models such as GPT-5.4, Gemini-3.1-Pro, and Claude-Opus-4.7) demonstrate unsatisfactory performance, with scores below 60% on All Set and below 25% on Gem set. Notably, 17 out of 20 tested models perform worse than a random-guess baseline (15.2%) on Gem Set, while the estimated human performance is ~81.1%, showing substantial room for improvement. To enhance such ability, this paper proposes Intentional Fine-Tuning (IFT), which fine-tunes the models on the training set in IntentGrasp, yielding significant gains of 30+ F1 points on All Set and 20+ points on Gem Set. Tellingly, the leave-one-domain-out (Lodo) experiments further demonstrate the strong cross-domain generalizability of IFT, verifying that it is a promising approach to substantially enhancing the intent understanding of LLMs. Overall, by benchmarking and boosting intent understanding ability, this study sheds light on a promising path towards more intentional, capable, and safe AI assistants for human benefits and social good.

IntenciónGrasp: Un Punto de Referencia Integral para la Comprensión de Intenciones

IntentGrasp: A Comprehensive Benchmark for Intent Understanding

Resumen

Support