ChatPaper.aiChatPaper

ExStrucTiny: Ein Benchmark für schema-variable strukturierte Informationsextraktion aus Dokumentbildern

ExStrucTiny: A Benchmark for Schema-Variable Structured Information Extraction from Document Images

February 12, 2026
papers.authors: Mathieu Sibue, Andres Muñoz Garza, Samuel Mensah, Pranav Shetty, Zhiqiang Ma, Xiaomo Liu, Manuela Veloso
cs.AI

papers.abstract

Unternehmensdokumente wie Formulare und Berichte enthalten kritische Informationen für nachgelagerte Anwendungen wie Datenarchivierung, automatisierte Workflows und Analysen. Obwohl generalistische Vision-Language-Models (VLMs) bei etablierten Benchmarks für Dokumentenverständnis gute Leistungen erbringen, ist ihre Fähigkeit zur ganzheitlichen, feingranularen und strukturierten Extraktion über verschiedene Dokumenttypen und flexible Schemata hinweg nicht gut erforscht. Bestehende Datensätze für Key Entity Extraction (KEE), Relation Extraction (RE) und Visual Question Answering (VQA) sind durch eingeschränkte Entitätsontologien, einfache Abfragen oder homogene Dokumenttypen limitiert und übersehen oft die Notwendigkeit adaptiver und strukturierter Extraktion. Um diese Lücken zu schließen, stellen wir ExStrucTiny vor, einen neuen Benchmark-Datensatz für strukturierte Informationsextraktion (IE) aus Dokumentbildern, der Aspekte von KEE, RE und VQA vereint. Erstellt durch eine neuartige Pipeline, die manuelle und synthetische, menschlich validierte Stichproben kombiniert, deckt ExStrucTiny vielfältigere Dokumenttypen und Extraktionsszenarien ab. Wir analysieren offene und geschlossene VLMs anhand dieses Benchmarks und beleuchten Herausforderungen wie Schemaanpassung, unzureichend spezifizierte Abfragen und Antwortlokalisierung. Wir hoffen, dass unsere Arbeit eine Grundlage für die Verbesserung generalistischer Modelle zur strukturierten IE in Dokumenten bietet.
English
Enterprise documents, such as forms and reports, embed critical information for downstream applications like data archiving, automated workflows, and analytics. Although generalist Vision Language Models (VLMs) perform well on established document understanding benchmarks, their ability to conduct holistic, fine-grained structured extraction across diverse document types and flexible schemas is not well studied. Existing Key Entity Extraction (KEE), Relation Extraction (RE), and Visual Question Answering (VQA) datasets are limited by narrow entity ontologies, simple queries, or homogeneous document types, often overlooking the need for adaptable and structured extraction. To address these gaps, we introduce ExStrucTiny, a new benchmark dataset for structured Information Extraction (IE) from document images, unifying aspects of KEE, RE, and VQA. Built through a novel pipeline combining manual and synthetic human-validated samples, ExStrucTiny covers more varied document types and extraction scenarios. We analyze open and closed VLMs on this benchmark, highlighting challenges such as schema adaptation, query under-specification, and answer localization. We hope our work provides a bedrock for improving generalist models for structured IE in documents.
PDF31February 14, 2026