ChatPaper.aiChatPaper

ExStrucTiny: 문서 이미지의 스키마 가변 구조적 정보 추출 벤치마크

ExStrucTiny: A Benchmark for Schema-Variable Structured Information Extraction from Document Images

February 12, 2026
저자: Mathieu Sibue, Andres Muñoz Garza, Samuel Mensah, Pranav Shetty, Zhiqiang Ma, Xiaomo Liu, Manuela Veloso
cs.AI

초록

양식 및 보고서와 같은 기업 문서는 데이터 아카이빙, 자동화된 워크플로우, 분석과 같은 다운스트림 애플리케이션에 중요한 정보를 내포하고 있습니다. 일반적인 비전 언어 모델(VLM)이 기존 문서 이해 벤치마크에서는 우수한 성능을 보이지만, 다양한 문서 유형과 유연한 스키마에 걸쳐 세밀하고 포괄적인 구조화된 정보 추출을 수행하는 능력은 충분히 연구되지 않았습니다. 기존의 핵심 개체 추출(KEE), 관계 추출(RE), 시각 질의응답(VQA) 데이터셋은 제한된 개체 온톨로지, 단순한 질의, 또는 동질적인 문서 유형으로 인해 적응적이고 구조화된 추출 필요성을 종종 간과하고 있습니다. 이러한 격차를 해결하기 위해, 우리는 문서 이미지로부터의 구조화된 정보 추출(IE)을 위한 새로운 벤치마크 데이터셋인 ExStrucTiny를 소개합니다. 이 데이터셋은 KEE, RE, VQA의 측면을 통합합니다. 수동 및 합성된 인간 검증 샘플을 결합한 새로운 파이프라인을 통해 구축된 ExStrucTiny는 더 다양하고 포괄적인 문서 유형과 추출 시나리오를 다룹니다. 우리는 이 벤치마크를 통해 오픈 및 클로즈드 VLM을 분석하며, 스키마 적응, 질의 명세 부족, 답변 지역화와 같은 과제를 부각합니다. 우리의 작업이 문서의 구조화된 IE를 위한 일반 모델 개선의 초석이 되기를 바랍니다.
English
Enterprise documents, such as forms and reports, embed critical information for downstream applications like data archiving, automated workflows, and analytics. Although generalist Vision Language Models (VLMs) perform well on established document understanding benchmarks, their ability to conduct holistic, fine-grained structured extraction across diverse document types and flexible schemas is not well studied. Existing Key Entity Extraction (KEE), Relation Extraction (RE), and Visual Question Answering (VQA) datasets are limited by narrow entity ontologies, simple queries, or homogeneous document types, often overlooking the need for adaptable and structured extraction. To address these gaps, we introduce ExStrucTiny, a new benchmark dataset for structured Information Extraction (IE) from document images, unifying aspects of KEE, RE, and VQA. Built through a novel pipeline combining manual and synthetic human-validated samples, ExStrucTiny covers more varied document types and extraction scenarios. We analyze open and closed VLMs on this benchmark, highlighting challenges such as schema adaptation, query under-specification, and answer localization. We hope our work provides a bedrock for improving generalist models for structured IE in documents.
PDF31February 14, 2026