Desatendido y pasado por alto: Abordando el punto ciego de las casillas de verificación en modelos de lenguaje grandes con CheckboxQA
Unchecked and Overlooked: Addressing the Checkbox Blind Spot in Large Language Models with CheckboxQA
April 14, 2025
Autores: Michał Turski, Mateusz Chiliński, Łukasz Borchmann
cs.AI
Resumen
Las casillas de verificación son fundamentales en el procesamiento de documentos del mundo real, donde la presencia o ausencia de marcas influye directamente en la extracción de datos y los procesos de toma de decisiones. Sin embargo, a pesar del sólido rendimiento de los Modelos de Visión y Lenguaje a Gran Escala en una amplia gama de tareas, estos tienen dificultades para interpretar contenido verificable. Este desafío se vuelve especialmente apremiante en industrias donde una sola casilla de verificación pasada por alto puede generar costosos errores regulatorios o contractuales. Para abordar esta brecha, presentamos el conjunto de datos CheckboxQA, un recurso específico diseñado para evaluar y mejorar el rendimiento de los modelos en tareas relacionadas con casillas de verificación. Este conjunto de datos revela las limitaciones de los modelos actuales y sirve como una herramienta valiosa para avanzar en los sistemas de comprensión de documentos, con implicaciones significativas para aplicaciones en sectores como tecnología legal y finanzas.
El conjunto de datos está disponible públicamente en:
https://github.com/Snowflake-Labs/CheckboxQA
English
Checkboxes are critical in real-world document processing where the presence
or absence of ticks directly informs data extraction and decision-making
processes. Yet, despite the strong performance of Large Vision and Language
Models across a wide range of tasks, they struggle with interpreting checkable
content. This challenge becomes particularly pressing in industries where a
single overlooked checkbox may lead to costly regulatory or contractual
oversights. To address this gap, we introduce the CheckboxQA dataset, a
targeted resource designed to evaluate and improve model performance on
checkbox-related tasks. It reveals the limitations of current models and serves
as a valuable tool for advancing document comprehension systems, with
significant implications for applications in sectors such as legal tech and
finance.
The dataset is publicly available at:
https://github.com/Snowflake-Labs/CheckboxQASummary
AI-Generated Summary