HakushoBench: Een Japanse grafiek- en tabel VQA-benchmark uit overheidswitboeken

Samenvatting

Het begrijpen van afbeeldingen van grafieken en tabellen is essentieel voor het toepassen van visie-taalmodellen (VLMs) op het begrijpen van echte documenten. Hoewel Engelstalige benchmarks snel zijn gevorderd, blijven niet-Engelstalige tegenhangers schaars, waardoor onduidelijk is of deze vooruitgang generaliseert over talen heen. Een belangrijk obstakel is de moeilijkheid om realistische en diverse niet-Engelstalige grafiek- en tabelafbeeldingen op schaal te verzamelen. Om dit aan te pakken, benutten we overheidsdocumenten (white papers) als een schaalbare bron voor benchmarkconstructie buiten het Engels, omdat ze natuurlijk voorkomende grafieken en tabellen bevatten in diverse formaten en domeinen en in veel landen vrij toegankelijk zijn. Als eerste realisatie introduceren we HakushoBench, een uitdagende Japanse grafiek- en tabel-VQA-benchmark opgebouwd uit 33 overheidsdocumenten. HakushoBench bevat 2.053 afbeeldingen, verdeeld over meer dan 10 afbeeldingstypen, met handmatig geannoteerde vraag-antwoordparen, ontworpen om diep en holistisch begrip van grafieken en tabellen te beoordelen, in plaats van alleen lokale visuele aanwijzingen. Experimenten met een breed scala aan VLMs tonen aan dat HakushoBench uitdagend blijft voor open-weight modellen: het beste open-weight model behaalt slechts 58,6% nauwkeurigheid, en een verschil van 34,9 punten tussen open-weight en propriëtaire modellen benadrukt aanzienlijke ruimte voor verbetering in complex grafiek- en tabelbegrip. We geven onze dataset en code vrij.

English

Understanding chart and table images is essential for applying vision-language models (VLMs) to real-world document understanding. While English benchmarks have advanced rapidly, non-English counterparts remain scarce, leaving it unclear whether this progress generalizes across languages. A key obstacle is the difficulty of collecting realistic and diverse non-English chart and table images at scale. To address this, we leverage governmental white papers as a scalable source for benchmark construction beyond English, as they contain naturally occurring charts and tables across diverse formats and domains and are freely accessible in many countries. As a first instantiation, we introduce HakushoBench, a challenging Japanese chart and table VQA benchmark built from 33 governmental white papers. HakushoBench contains 2,053 images spanning over 10 image types, with manually annotated QA pairs, designed to assess deep and holistic understanding of charts and tables, rather than local visual cues alone. Experiments across a broad range of VLMs demonstrate that HakushoBench remains challenging for open-weight models: the best open-weight model achieves only 58.6% accuracy, and a 34.9-point gap between open-weight and proprietary models highlights substantial room for improvement in complex chart and table understanding. We release our dataset and code.