ChatPaper.aiChatPaper

VAREX: 문서에서의 다중 모달 구조화 정보 추출 벤치마크

VAREX: A Benchmark for Multi-Modal Structured Extraction from Documents

March 16, 2026
저자: Udi Barzelay, Ophir Azulai, Inbar Shapira, Idan Friedman, Foad Abo Dahood, Madison Lee, Abraham Daniels
cs.AI

초록

본 논문에서는 정부 양식에서 구조화된 데이터 추출 과제에 대한 멀티모달 기반 모델 평가를 위한 벤치마크인 VAREX(VARied-schema EXtraction)를 소개한다. VAREX는 합성 값으로 PDF 템플릿을 프로그램 방식으로 채우는 역주석(Reverse Annotation) 파이프라인을 활용하여, 3단계 품질 검증을 거친 결정론적 정답 라벨을 생성한다. 본 벤치마크는 3가지 구조적 범주에 걸쳐 1,771개의 고유 스키마를 가진 1,777개의 문서로 구성되며, 각 문서는 일반 텍스트, 레이아웃 유지 텍스트(열 위치를 근사화하기 위해 공백 정렬), 문서 이미지, 또는 텍스트와 이미지 결합 등 4가지 입력 양식으로 제공된다. 단일 입력 표현만으로 평가하는 기존 벤치마크와 달리, VAREX는 문서당 4가지 통제된 입력 양식을 제공하여 입력 형식이 추출 정확도에 미치는 영향을 체계적으로 분석할 수 있는, 기존 벤치마크에서는 부재했던 기능을 가능하게 한다. 최첨단 독점 모델부터 소규모 오픈 모델에 이르기까지 20개 모델을 평가하였으며, 특히 비용 및 지연 시간에 민감한 환경에 적합한 4B 이하 파라미터 모델에 주목하였다. 결과는 다음과 같다: (1) 4B 파라미터 미만에서는 추출 능력이 아닌 구조화된 출력 준수 능력이 주요 병목 현상이며, 특히 스키마 반향(모델이 추출 값 대신 스키맥 준수 구조를 출력하는 현상)이 영향을 받는 모델들의 점수를 45-65%p(percentage points) 하락시킴; (2) 2B 규모에서 추출 특화 미세 조정은 +81%p의 성능 향상을 보여, 규모 확대 없이도 지시 따르기 능력 결핍 문제가 해결 가능함을 입증함; (3) 레이아웃 유지 텍스트가 픽셀 수준의 시각적 단서를 능가하는 가장 큰 정확도 향상(+3-18%p)을 제공함; (4) 본 벤치마크는 60-95% 정확도 구간에서 모델들을 가장 효과적으로 변별해냄. 데이터셋과 평가 코드는 공개되어 있다.
English
We introduce VAREX (VARied-schema EXtraction), a benchmark for evaluating multimodal foundation models on structured data extraction from government forms. VAREX employs a Reverse Annotation pipeline that programmatically fills PDF templates with synthetic values, producing deterministic ground truth validated through three-phase quality assurance. The benchmark comprises 1,777 documents with 1,771 unique schemas across three structural categories, each provided in four input modalities: plain text, layout-preserving text (whitespace-aligned to approximate column positions), document image, or both text and image combined. Unlike existing benchmarks that evaluate from a single input representation, VAREX provides four controlled modalities per document, enabling systematic ablation of how input format affects extraction accuracy -- a capability absent from prior benchmarks. We evaluate 20 models from frontier proprietary models to small open models, with particular attention to models <=4B parameters suitable for cost-sensitive and latency-constrained deployment. Results reveal that (1) below 4B parameters, structured output compliance -- not extraction capability -- is a dominant bottleneck; in particular, schema echo (models producing schema-conforming structure instead of extracted values) depresses scores by 45-65 pp (percentage points) in affected models; (2) extraction-specific fine-tuning at 2B yields +81 pp gains, demonstrating that the instruction-following deficit is addressable without scale; (3) layout-preserving text provides the largest accuracy gain (+3-18 pp), exceeding pixel-level visual cues; and (4) the benchmark most effectively discriminates models in the 60-95% accuracy band. Dataset and evaluation code are publicly available.
PDF02March 19, 2026