ChatPaper.aiChatPaper

Non controllato e trascurato: Affrontare il punto cieco delle caselle di controllo nei modelli linguistici di grandi dimensioni con CheckboxQA

Unchecked and Overlooked: Addressing the Checkbox Blind Spot in Large Language Models with CheckboxQA

April 14, 2025
Autori: Michał Turski, Mateusz Chiliński, Łukasz Borchmann
cs.AI

Abstract

Le caselle di controllo sono fondamentali nell'elaborazione di documenti nel mondo reale, dove la presenza o l'assenza di segni di spunta influenza direttamente l'estrazione dei dati e i processi decisionali. Tuttavia, nonostante le elevate prestazioni dei Modelli di Visione e Linguaggio di Grande Scala in un'ampia gamma di attività, essi incontrano difficoltà nell'interpretazione di contenuti selezionabili. Questa sfida diventa particolarmente pressante in settori in cui una singola casella di controllo trascurata può portare a costosi errori normativi o contrattuali. Per colmare questa lacuna, introduciamo il dataset CheckboxQA, una risorsa mirata progettata per valutare e migliorare le prestazioni dei modelli nelle attività relative alle caselle di controllo. Esso rivela i limiti dei modelli attuali e si pone come uno strumento prezioso per avanzare i sistemi di comprensione documentale, con implicazioni significative per applicazioni in settori come la tecnologia legale e la finanza. Il dataset è disponibile pubblicamente all'indirizzo: https://github.com/Snowflake-Labs/CheckboxQA
English
Checkboxes are critical in real-world document processing where the presence or absence of ticks directly informs data extraction and decision-making processes. Yet, despite the strong performance of Large Vision and Language Models across a wide range of tasks, they struggle with interpreting checkable content. This challenge becomes particularly pressing in industries where a single overlooked checkbox may lead to costly regulatory or contractual oversights. To address this gap, we introduce the CheckboxQA dataset, a targeted resource designed to evaluate and improve model performance on checkbox-related tasks. It reveals the limitations of current models and serves as a valuable tool for advancing document comprehension systems, with significant implications for applications in sectors such as legal tech and finance. The dataset is publicly available at: https://github.com/Snowflake-Labs/CheckboxQA

Summary

AI-Generated Summary

PDF42April 24, 2025