ChatPaper.aiChatPaper

Incontrôlé et négligé : Remédier à l'angle mort des cases à cocher dans les grands modèles de langage avec CheckboxQA

Unchecked and Overlooked: Addressing the Checkbox Blind Spot in Large Language Models with CheckboxQA

April 14, 2025
Auteurs: Michał Turski, Mateusz Chiliński, Łukasz Borchmann
cs.AI

Résumé

Les cases à cocher sont cruciales dans le traitement de documents réels, où la présence ou l'absence de coches influence directement l'extraction de données et les processus de prise de décision. Pourtant, malgré les performances impressionnantes des grands modèles de vision et de langage sur une large gamme de tâches, ils peinent à interpréter le contenu des cases à cocher. Ce défi devient particulièrement pressant dans les industries où une seule case non détectée peut entraîner des erreurs réglementaires ou contractuelles coûteuses. Pour combler cette lacune, nous présentons le jeu de données CheckboxQA, une ressource ciblée conçue pour évaluer et améliorer les performances des modèles sur les tâches liées aux cases à cocher. Il met en lumière les limites des modèles actuels et sert d'outil précieux pour faire progresser les systèmes de compréhension de documents, avec des implications significatives pour des applications dans des secteurs tels que la technologie juridique et la finance. Le jeu de données est disponible publiquement à l'adresse suivante : https://github.com/Snowflake-Labs/CheckboxQA
English
Checkboxes are critical in real-world document processing where the presence or absence of ticks directly informs data extraction and decision-making processes. Yet, despite the strong performance of Large Vision and Language Models across a wide range of tasks, they struggle with interpreting checkable content. This challenge becomes particularly pressing in industries where a single overlooked checkbox may lead to costly regulatory or contractual oversights. To address this gap, we introduce the CheckboxQA dataset, a targeted resource designed to evaluate and improve model performance on checkbox-related tasks. It reveals the limitations of current models and serves as a valuable tool for advancing document comprehension systems, with significant implications for applications in sectors such as legal tech and finance. The dataset is publicly available at: https://github.com/Snowflake-Labs/CheckboxQA

Summary

AI-Generated Summary

PDF42April 24, 2025