WildTableBench: Benchmarking multimodaler Foundation-Modelle für das Tabellenverständnis in freier Wildbahn

Zusammenfassung

Die Verwendung multimodaler Grundlagenmodelle zur Analyse von Tabellenbildern ist eine anspruchsvolle, aber wertvolle Anwendung in Verbraucher- und Unternehmensszenarien. Trotz ihrer Bedeutung stützen sich aktuelle Evaluierungen weitgehend auf strukturierte Texttabellen oder sauber gerenderte Bilder, sodass die visuelle Komplexität von Tabellenbildern aus der realen Welt nur unzureichend erforscht ist. Solche Bilder zeichnen sich durch unterschiedliche Layouts und vielfältige Bereiche aus, die ein anspruchsvolles Strukturverständnis und numerisches Schlussfolgern erfordern. Um diese Lücke zu schließen, führen wir WildTableBench ein, die erste Frage-Antwort-Benchmark für natürlich vorkommende Tabellenbilder aus realen Umgebungen. WildTableBench umfasst 402 Tabellenbilder mit hoher Informationsdichte, die aus Online-Foren und Websites verschiedener Bereiche gesammelt wurden, zusammen mit 928 manuell annotierten und verifizierten Fragen, die 17 Untertypen in fünf Kategorien abdecken. Wir evaluieren 21 führende proprietäre und Open-Source multimodale Grundlagenmodelle anhand dieser Benchmark. Nur ein Modell erreicht eine Genauigkeit von über 50 %, während alle übrigen Modelle zwischen 4,1 % und 49,9 % liegen. Wir führen weiterhin diagnostische Analysen durch, um Modellfehler zu charakterisieren und zeigen anhaltende Schwächen in der strukturellen Wahrnehmung und im Schlussfolgern auf. Diese Ergebnisse und Analysen liefern nützliche Einblicke in die aktuellen Modellfähigkeiten und etablieren WildTableBench als wertvolle diagnostische Benchmark für das Verständnis von Tabellenbildern.

English

Using multimodal foundation models to analyze table images is a high-value yet challenging application in consumer and enterprise scenarios. Despite its importance, current evaluations rely largely on structured-text tables or clean rendered images, leaving the visual complexity of in-the-wild table images underexplored. Such images feature varied layouts and diverse domains that demand sophisticated structural perception and numerical reasoning. To bridge this gap, we introduce WildTableBench, the first question-answering benchmark for naturally occurring table images from real-world settings. WildTableBench comprises 402 high-information-density table images collected from online forums and websites across diverse domains, together with 928 manually annotated and verified questions spanning 17 subtypes across five categories. We evaluate 21 frontier proprietary and open-source multimodal foundation models on this benchmark. Only one model exceeds 50% accuracy, while all remaining models range from 4.1% to 49.9%. We further conduct diagnostic analyses to characterize model failures and reveal persistent weaknesses in structural perception and reasoning. These results and analyses provide useful insights into current model capabilities and establish WildTableBench as a valuable diagnostic benchmark for table image understanding.