ChatPaper.aiChatPaper

Desatendido e Negligenciado: Abordando o Ponto Cego de Caixas de Seleção em Modelos de Linguagem de Grande Escala com CheckboxQA

Unchecked and Overlooked: Addressing the Checkbox Blind Spot in Large Language Models with CheckboxQA

April 14, 2025
Autores: Michał Turski, Mateusz Chiliński, Łukasz Borchmann
cs.AI

Resumo

Caixas de seleção são fundamentais no processamento de documentos do mundo real, onde a presença ou ausência de marcações influencia diretamente a extração de dados e os processos de tomada de decisão. No entanto, apesar do forte desempenho dos Modelos de Visão e Linguagem de Grande Escala em uma ampla gama de tarefas, eles enfrentam dificuldades ao interpretar conteúdo verificável. Esse desafio torna-se particularmente crítico em setores onde uma única caixa de seleção não marcada pode resultar em falhas regulatórias ou contratuais custosas. Para abordar essa lacuna, apresentamos o conjunto de dados CheckboxQA, um recurso específico projetado para avaliar e melhorar o desempenho dos modelos em tarefas relacionadas a caixas de seleção. Ele revela as limitações dos modelos atuais e serve como uma ferramenta valiosa para avançar os sistemas de compreensão de documentos, com implicações significativas para aplicações em setores como tecnologia jurídica e finanças. O conjunto de dados está disponível publicamente em: https://github.com/Snowflake-Labs/CheckboxQA
English
Checkboxes are critical in real-world document processing where the presence or absence of ticks directly informs data extraction and decision-making processes. Yet, despite the strong performance of Large Vision and Language Models across a wide range of tasks, they struggle with interpreting checkable content. This challenge becomes particularly pressing in industries where a single overlooked checkbox may lead to costly regulatory or contractual oversights. To address this gap, we introduce the CheckboxQA dataset, a targeted resource designed to evaluate and improve model performance on checkbox-related tasks. It reveals the limitations of current models and serves as a valuable tool for advancing document comprehension systems, with significant implications for applications in sectors such as legal tech and finance. The dataset is publicly available at: https://github.com/Snowflake-Labs/CheckboxQA

Summary

AI-Generated Summary

PDF42April 24, 2025