Incontrôlé et négligé : Remédier à l'angle mort des cases à cocher dans les grands modèles de langage avec CheckboxQA
Unchecked and Overlooked: Addressing the Checkbox Blind Spot in Large Language Models with CheckboxQA
April 14, 2025
Auteurs: Michał Turski, Mateusz Chiliński, Łukasz Borchmann
cs.AI
Résumé
Les cases à cocher sont cruciales dans le traitement de documents réels, où la présence ou l'absence de coches influence directement l'extraction de données et les processus de prise de décision. Pourtant, malgré les performances impressionnantes des grands modèles de vision et de langage sur une large gamme de tâches, ils peinent à interpréter le contenu des cases à cocher. Ce défi devient particulièrement pressant dans les industries où une seule case non détectée peut entraîner des erreurs réglementaires ou contractuelles coûteuses. Pour combler cette lacune, nous présentons le jeu de données CheckboxQA, une ressource ciblée conçue pour évaluer et améliorer les performances des modèles sur les tâches liées aux cases à cocher. Il met en lumière les limites des modèles actuels et sert d'outil précieux pour faire progresser les systèmes de compréhension de documents, avec des implications significatives pour des applications dans des secteurs tels que la technologie juridique et la finance.
Le jeu de données est disponible publiquement à l'adresse suivante :
https://github.com/Snowflake-Labs/CheckboxQA
English
Checkboxes are critical in real-world document processing where the presence
or absence of ticks directly informs data extraction and decision-making
processes. Yet, despite the strong performance of Large Vision and Language
Models across a wide range of tasks, they struggle with interpreting checkable
content. This challenge becomes particularly pressing in industries where a
single overlooked checkbox may lead to costly regulatory or contractual
oversights. To address this gap, we introduce the CheckboxQA dataset, a
targeted resource designed to evaluate and improve model performance on
checkbox-related tasks. It reveals the limitations of current models and serves
as a valuable tool for advancing document comprehension systems, with
significant implications for applications in sectors such as legal tech and
finance.
The dataset is publicly available at:
https://github.com/Snowflake-Labs/CheckboxQASummary
AI-Generated Summary