Desatendido y pasado por alto: Abordando el punto ciego de las casillas de verificación en modelos de lenguaje grandes con CheckboxQA

Resumen

Las casillas de verificación son fundamentales en el procesamiento de documentos del mundo real, donde la presencia o ausencia de marcas influye directamente en la extracción de datos y los procesos de toma de decisiones. Sin embargo, a pesar del sólido rendimiento de los Modelos de Visión y Lenguaje a Gran Escala en una amplia gama de tareas, estos tienen dificultades para interpretar contenido verificable. Este desafío se vuelve especialmente apremiante en industrias donde una sola casilla de verificación pasada por alto puede generar costosos errores regulatorios o contractuales. Para abordar esta brecha, presentamos el conjunto de datos CheckboxQA, un recurso específico diseñado para evaluar y mejorar el rendimiento de los modelos en tareas relacionadas con casillas de verificación. Este conjunto de datos revela las limitaciones de los modelos actuales y sirve como una herramienta valiosa para avanzar en los sistemas de comprensión de documentos, con implicaciones significativas para aplicaciones en sectores como tecnología legal y finanzas. El conjunto de datos está disponible públicamente en: https://github.com/Snowflake-Labs/CheckboxQA

English

Checkboxes are critical in real-world document processing where the presence or absence of ticks directly informs data extraction and decision-making processes. Yet, despite the strong performance of Large Vision and Language Models across a wide range of tasks, they struggle with interpreting checkable content. This challenge becomes particularly pressing in industries where a single overlooked checkbox may lead to costly regulatory or contractual oversights. To address this gap, we introduce the CheckboxQA dataset, a targeted resource designed to evaluate and improve model performance on checkbox-related tasks. It reveals the limitations of current models and serves as a valuable tool for advancing document comprehension systems, with significant implications for applications in sectors such as legal tech and finance. The dataset is publicly available at: https://github.com/Snowflake-Labs/CheckboxQA