HakushoBench: Um Benchmark de VQA para Gráficos e Tabelas Japonesas a partir de Livros Brancos Governamentais

Resumo

Compreender imagens de gráficos e tabelas é essencial para aplicar modelos de visão-linguagem (VLMs) à compreensão de documentos no mundo real. Embora os benchmarks em inglês tenham avançado rapidamente, equivalentes em outros idiomas permanecem escassos, deixando incerto se esse progresso se generaliza entre línguas. Um obstáculo fundamental é a dificuldade de coletar imagens realistas e diversas de gráficos e tabelas em outros idiomas em grande escala. Para enfrentar isso, aproveitamos os white papers governamentais como uma fonte escalável para a construção de benchmarks além do inglês, pois eles contêm gráficos e tabelas naturalmente ocorrentes em diversos formatos e domínios, sendo livremente acessíveis em muitos países. Como primeira instanciação, apresentamos o HakushoBench, um desafiador benchmark de VQA (Visual Question Answering) para gráficos e tabelas em japonês, construído a partir de 33 white papers governamentais. O HakushoBench contém 2.053 imagens abrangendo mais de 10 tipos de imagem, com pares de perguntas e respostas anotados manualmente, projetados para avaliar a compreensão profunda e holística de gráficos e tabelas, em vez de apenas pistas visuais locais. Experimentos com uma ampla gama de VLMs demonstram que o HakushoBench continua desafiador para modelos de pesos abertos: o melhor modelo de pesos abertos alcança apenas 58,6% de precisão, e uma diferença de 34,9 pontos percentuais entre modelos de pesos abertos e proprietários destaca a necessidade substancial de melhorias na compreensão complexa de gráficos e tabelas. Disponibilizamos nosso conjunto de dados e código.

English

Understanding chart and table images is essential for applying vision-language models (VLMs) to real-world document understanding. While English benchmarks have advanced rapidly, non-English counterparts remain scarce, leaving it unclear whether this progress generalizes across languages. A key obstacle is the difficulty of collecting realistic and diverse non-English chart and table images at scale. To address this, we leverage governmental white papers as a scalable source for benchmark construction beyond English, as they contain naturally occurring charts and tables across diverse formats and domains and are freely accessible in many countries. As a first instantiation, we introduce HakushoBench, a challenging Japanese chart and table VQA benchmark built from 33 governmental white papers. HakushoBench contains 2,053 images spanning over 10 image types, with manually annotated QA pairs, designed to assess deep and holistic understanding of charts and tables, rather than local visual cues alone. Experiments across a broad range of VLMs demonstrate that HakushoBench remains challenging for open-weight models: the best open-weight model achieves only 58.6% accuracy, and a 34.9-point gap between open-weight and proprietary models highlights substantial room for improvement in complex chart and table understanding. We release our dataset and code.