ExStrucTiny: 文書画像からのスキーマ可変型構造化情報抽出のためのベンチマーク
ExStrucTiny: A Benchmark for Schema-Variable Structured Information Extraction from Document Images
February 12, 2026
著者: Mathieu Sibue, Andres Muñoz Garza, Samuel Mensah, Pranav Shetty, Zhiqiang Ma, Xiaomo Liu, Manuela Veloso
cs.AI
要旨
企業文書(フォームやレポートなど)には、データアーカイブ、自動化されたワークフロー、分析などの下流アプリケーションにとって重要な情報が埋め込まれている。汎用視覚言語モデル(VLM)は、確立された文書理解ベンチマークでは良好な性能を示すが、多様な文書タイプと柔軟なスキーマにわたる、包括的で細粒度な構造化抽出を実行する能力については十分に研究されていない。既存の主要エンティティ抽出(KEE)、関係抽出(RE)、視覚的質問応答(VQA)のデータセットは、限定的なエンティティオントロジー、単純なクエリ、または均質な文書タイプによって制限されており、適応可能で構造化された抽出の必要性を見落としがちである。これらの課題に対処するため、我々は文書画像からの構造化情報抽出(IE)のための新しいベンチマークデータセットであるExStrucTinyを提案する。これはKEE、RE、VQAの側面を統合したものである。手動と合成の人間検証サンプルを組み合わせた新しいパイプラインを通じて構築されたExStrucTinyは、より多様な文書タイプと抽出シナリオを網羅している。本ベンチマークを用いてオープン及びクローズドなVLMを分析し、スキーマ適応、クエリの仕様不足、回答の位置特定といった課題を明らかにする。我々の研究が、文書における構造化IEのための汎用モデル改善の基盤となることを期待する。
English
Enterprise documents, such as forms and reports, embed critical information for downstream applications like data archiving, automated workflows, and analytics. Although generalist Vision Language Models (VLMs) perform well on established document understanding benchmarks, their ability to conduct holistic, fine-grained structured extraction across diverse document types and flexible schemas is not well studied. Existing Key Entity Extraction (KEE), Relation Extraction (RE), and Visual Question Answering (VQA) datasets are limited by narrow entity ontologies, simple queries, or homogeneous document types, often overlooking the need for adaptable and structured extraction. To address these gaps, we introduce ExStrucTiny, a new benchmark dataset for structured Information Extraction (IE) from document images, unifying aspects of KEE, RE, and VQA. Built through a novel pipeline combining manual and synthetic human-validated samples, ExStrucTiny covers more varied document types and extraction scenarios. We analyze open and closed VLMs on this benchmark, highlighting challenges such as schema adaptation, query under-specification, and answer localization. We hope our work provides a bedrock for improving generalist models for structured IE in documents.