ExStrucTiny : Un benchmark pour l'extraction d'informations structurées à schéma variable à partir d'images de documents
ExStrucTiny: A Benchmark for Schema-Variable Structured Information Extraction from Document Images
February 12, 2026
papers.authors: Mathieu Sibue, Andres Muñoz Garza, Samuel Mensah, Pranav Shetty, Zhiqiang Ma, Xiaomo Liu, Manuela Veloso
cs.AI
papers.abstract
Les documents d'entreprise, tels que les formulaires et les rapports, contiennent des informations cruciales pour les applications en aval comme l'archivage de données, les flux de travail automatisés et l'analyse. Bien que les modèles vision-langage (VLM) généralistes obtiennent de bons résultats sur les benchmarks établis de compréhension de documents, leur capacité à effectuer une extraction structurée holistique et fine sur différents types de documents et schémas flexibles n'est pas bien étudiée. Les ensembles de données existants pour l'extraction d'entités clés (KEE), l'extraction de relations (RE) et les questions-réponses visuelles (VQA) sont limités par des ontologies d'entités restreintes, des requêtes simples ou des types de documents homogènes, négligeant souvent le besoin d'une extraction structurée et adaptable. Pour combler ces lacunes, nous présentons ExStrucTiny, un nouveau benchmark pour l'extraction d'information (EI) structurée à partir d'images de documents, unifiant les aspects du KEE, du RE et du VQA. Construit via une nouvelle méthode combinant des échantillons manuels et synthétiques validés par des humains, ExStrucTiny couvre des types de documents et des scénarios d'extraction plus variés. Nous analysons des VLM ouverts et fermés sur ce benchmark, en soulignant des défis tels que l'adaptation du schéma, la sous-spécification des requêtes et la localisation des réponses. Nous espérons que notre travail fournira une base pour améliorer les modèles généralistes pour l'EI structurée dans les documents.
English
Enterprise documents, such as forms and reports, embed critical information for downstream applications like data archiving, automated workflows, and analytics. Although generalist Vision Language Models (VLMs) perform well on established document understanding benchmarks, their ability to conduct holistic, fine-grained structured extraction across diverse document types and flexible schemas is not well studied. Existing Key Entity Extraction (KEE), Relation Extraction (RE), and Visual Question Answering (VQA) datasets are limited by narrow entity ontologies, simple queries, or homogeneous document types, often overlooking the need for adaptable and structured extraction. To address these gaps, we introduce ExStrucTiny, a new benchmark dataset for structured Information Extraction (IE) from document images, unifying aspects of KEE, RE, and VQA. Built through a novel pipeline combining manual and synthetic human-validated samples, ExStrucTiny covers more varied document types and extraction scenarios. We analyze open and closed VLMs on this benchmark, highlighting challenges such as schema adaptation, query under-specification, and answer localization. We hope our work provides a bedrock for improving generalist models for structured IE in documents.