ExStrucTiny: Un Punto de Referencia para la Extracción de Información Estructurada con Esquema Variable en Imágenes de Documentos
ExStrucTiny: A Benchmark for Schema-Variable Structured Information Extraction from Document Images
February 12, 2026
Autores: Mathieu Sibue, Andres Muñoz Garza, Samuel Mensah, Pranav Shetty, Zhiqiang Ma, Xiaomo Liu, Manuela Veloso
cs.AI
Resumen
Los documentos empresariales, como formularios e informes, contienen información crítica para aplicaciones posteriores como el archivo de datos, los flujos de trabajo automatizados y el análisis. Aunque los Modelos de Lenguaje Visual (VLMs) generalistas obtienen buenos resultados en los puntos de referencia establecidos para la comprensión de documentos, su capacidad para realizar una extracción estructurada holística y de grano fino en diversos tipos de documentos y esquemas flexibles no ha sido bien estudiada. Los conjuntos de datos existentes para la Extracción de Entidades Clave (KEE), la Extracción de Relaciones (RE) y la Respuesta a Preguntas Visuales (VQA) están limitados por ontologías de entidades reducidas, consultas simples o tipos de documentos homogéneos, y a menudo pasan por alto la necesidad de una extracción estructurada y adaptable. Para abordar estas lagunas, presentamos ExStrucTiny, un nuevo conjunto de datos de referencia para la Extracción de Información (IE) estructurada a partir de imágenes de documentos, que unifica aspectos de KEE, RE y VQA. Construido mediante una novedosa pipeline que combina muestras manuales y sintéticas validadas por humanos, ExStrucTiny abarca tipos de documentos y escenarios de extracción más variados. Analizamos VLMs abiertos y cerrados en este benchmark, destacando desafíos como la adaptación al esquema, la subespecificación de consultas y la localización de respuestas. Esperamos que nuestro trabajo sirva de base para mejorar los modelos generalistas en la IE estructurada en documentos.
English
Enterprise documents, such as forms and reports, embed critical information for downstream applications like data archiving, automated workflows, and analytics. Although generalist Vision Language Models (VLMs) perform well on established document understanding benchmarks, their ability to conduct holistic, fine-grained structured extraction across diverse document types and flexible schemas is not well studied. Existing Key Entity Extraction (KEE), Relation Extraction (RE), and Visual Question Answering (VQA) datasets are limited by narrow entity ontologies, simple queries, or homogeneous document types, often overlooking the need for adaptable and structured extraction. To address these gaps, we introduce ExStrucTiny, a new benchmark dataset for structured Information Extraction (IE) from document images, unifying aspects of KEE, RE, and VQA. Built through a novel pipeline combining manual and synthetic human-validated samples, ExStrucTiny covers more varied document types and extraction scenarios. We analyze open and closed VLMs on this benchmark, highlighting challenges such as schema adaptation, query under-specification, and answer localization. We hope our work provides a bedrock for improving generalist models for structured IE in documents.