Non controllato e trascurato: Affrontare il punto cieco delle caselle di controllo nei modelli linguistici di grandi dimensioni con CheckboxQA
Unchecked and Overlooked: Addressing the Checkbox Blind Spot in Large Language Models with CheckboxQA
April 14, 2025
Autori: Michał Turski, Mateusz Chiliński, Łukasz Borchmann
cs.AI
Abstract
Le caselle di controllo sono fondamentali nell'elaborazione di documenti nel mondo reale, dove la presenza o l'assenza di segni di spunta influenza direttamente l'estrazione dei dati e i processi decisionali. Tuttavia, nonostante le elevate prestazioni dei Modelli di Visione e Linguaggio di Grande Scala in un'ampia gamma di attività, essi incontrano difficoltà nell'interpretazione di contenuti selezionabili. Questa sfida diventa particolarmente pressante in settori in cui una singola casella di controllo trascurata può portare a costosi errori normativi o contrattuali. Per colmare questa lacuna, introduciamo il dataset CheckboxQA, una risorsa mirata progettata per valutare e migliorare le prestazioni dei modelli nelle attività relative alle caselle di controllo. Esso rivela i limiti dei modelli attuali e si pone come uno strumento prezioso per avanzare i sistemi di comprensione documentale, con implicazioni significative per applicazioni in settori come la tecnologia legale e la finanza.
Il dataset è disponibile pubblicamente all'indirizzo:
https://github.com/Snowflake-Labs/CheckboxQA
English
Checkboxes are critical in real-world document processing where the presence
or absence of ticks directly informs data extraction and decision-making
processes. Yet, despite the strong performance of Large Vision and Language
Models across a wide range of tasks, they struggle with interpreting checkable
content. This challenge becomes particularly pressing in industries where a
single overlooked checkbox may lead to costly regulatory or contractual
oversights. To address this gap, we introduce the CheckboxQA dataset, a
targeted resource designed to evaluate and improve model performance on
checkbox-related tasks. It reveals the limitations of current models and serves
as a valuable tool for advancing document comprehension systems, with
significant implications for applications in sectors such as legal tech and
finance.
The dataset is publicly available at:
https://github.com/Snowflake-Labs/CheckboxQASummary
AI-Generated Summary