WildTableBench: Avaliando Modelos de Fundação Multimodais na Compreensão de Tabelas em Cenários Reais

Resumo

Utilizar modelos de base multimodais para analisar imagens de tabelas é uma aplicação de alto valor, porém desafiadora, em cenários de consumo e empresariais. Apesar de sua importância, as avaliações atuais dependem em grande parte de tabelas de texto estruturado ou imagens renderizadas limpas, deixando inexplorada a complexidade visual das imagens de tabelas encontradas em ambientes reais. Essas imagens apresentam layouts variados e domínios diversos que exigem percepção estrutural sofisticada e raciocínio numérico. Para preencher essa lacuna, apresentamos o WildTableBench, o primeiro benchmark de perguntas e respostas para imagens de tabelas naturalmente ocorrentes em contextos do mundo real. O WildTableBench compreende 402 imagens de tabelas com alta densidade de informação, coletadas de fóruns online e sites de diversos domínios, juntamente com 928 perguntas anotadas e verificadas manualmente, abrangendo 17 subtipos em cinco categorias. Avaliamos 21 modelos de base multimodais de ponta, proprietários e de código aberto, neste benchmark. Apenas um modelo ultrapassa 50% de precisão, enquanto todos os restantes variam de 4,1% a 49,9%. Realizamos ainda análises diagnósticas para caracterizar as falhas dos modelos e revelar fragilidades persistentes na percepção estrutural e no raciocínio. Esses resultados e análises fornecem insights úteis sobre as capacidades atuais dos modelos e estabelecem o WildTableBench como um benchmark diagnóstico valioso para a compreensão de imagens de tabelas.

English

Using multimodal foundation models to analyze table images is a high-value yet challenging application in consumer and enterprise scenarios. Despite its importance, current evaluations rely largely on structured-text tables or clean rendered images, leaving the visual complexity of in-the-wild table images underexplored. Such images feature varied layouts and diverse domains that demand sophisticated structural perception and numerical reasoning. To bridge this gap, we introduce WildTableBench, the first question-answering benchmark for naturally occurring table images from real-world settings. WildTableBench comprises 402 high-information-density table images collected from online forums and websites across diverse domains, together with 928 manually annotated and verified questions spanning 17 subtypes across five categories. We evaluate 21 frontier proprietary and open-source multimodal foundation models on this benchmark. Only one model exceeds 50% accuracy, while all remaining models range from 4.1% to 49.9%. We further conduct diagnostic analyses to characterize model failures and reveal persistent weaknesses in structural perception and reasoning. These results and analyses provide useful insights into current model capabilities and establish WildTableBench as a valuable diagnostic benchmark for table image understanding.