VAREX: 文書からのマルチモーダル構造化抽出のためのベンチマーク
VAREX: A Benchmark for Multi-Modal Structured Extraction from Documents
March 16, 2026
著者: Udi Barzelay, Ophir Azulai, Inbar Shapira, Idan Friedman, Foad Abo Dahood, Madison Lee, Abraham Daniels
cs.AI
要旨
我々は、政府様式からの構造化データ抽出におけるマルチモーダル基盤モデルの評価のためのベンチマーク「VAREX(VARied-schema EXtraction)」を提案する。VAREXは、プログラムによってPDFテンプレートに合成値を入力する「逆アノテーション」パイプラインを採用し、3段階の品質保証を経て検証された確定的な正解データを生成する。このベンチマークは、3つの構造カテゴリーにわたる1,771のユニークなスキーマを持つ1,777文書で構成され、各文書は4つの入力モダリティ(プレーンテキスト、レイアウト保持テキスト(空白を調整して列位置を近似)、文書画像、またはテキストと画像の組み合わせ)で提供される。単一の入力表現から評価する既存のベンチマークとは異なり、VAREXは文書ごとに4つの制御されたモダリティを提供し、入力形式が抽出精度に与える影響を系統的に検証することを可能にする。これは従来のベンチマークにはない機能である。我々は、最先端のプロプライエタリモデルから小規模なオープンモデルまで20のモデルを評価し、特にコスト敏感かつレイテンシ制約のある展開に適した4Bパラメータ以下のモデルに注目した。結果は以下のことを明らかにした。(1) 4Bパラメータ未満では、抽出能力そのものではなく、構造化出力の準拠性が主要なボトルネックである。特に、「スキーマエコー」(モデルが抽出値の代わりにスキーマに準拠した構造を出力する現象)は、影響を受けるモデルでスコアを45-65パーセンテージポイント低下させた。(2) 2Bパラメータモデルにおいて、抽出特化のファインチューニングにより+81パーセンテージポイントの向上が達成され、指示追従能力の不足はスケールを拡大せずに対処可能であることが実証された。(3) レイアウト保持テキストは、ピクセルレベルの視覚的手がかりを上回る、最大の精度向上(+3-18パーセンテージポイント)をもたらした。(4) このベンチマークは、精度60-95%の帯域においてモデルを最も効果的に識別する。データセットと評価コードは公開されている。
English
We introduce VAREX (VARied-schema EXtraction), a benchmark for evaluating multimodal foundation models on structured data extraction from government forms. VAREX employs a Reverse Annotation pipeline that programmatically fills PDF templates with synthetic values, producing deterministic ground truth validated through three-phase quality assurance. The benchmark comprises 1,777 documents with 1,771 unique schemas across three structural categories, each provided in four input modalities: plain text, layout-preserving text (whitespace-aligned to approximate column positions), document image, or both text and image combined. Unlike existing benchmarks that evaluate from a single input representation, VAREX provides four controlled modalities per document, enabling systematic ablation of how input format affects extraction accuracy -- a capability absent from prior benchmarks. We evaluate 20 models from frontier proprietary models to small open models, with particular attention to models <=4B parameters suitable for cost-sensitive and latency-constrained deployment. Results reveal that (1) below 4B parameters, structured output compliance -- not extraction capability -- is a dominant bottleneck; in particular, schema echo (models producing schema-conforming structure instead of extracted values) depresses scores by 45-65 pp (percentage points) in affected models; (2) extraction-specific fine-tuning at 2B yields +81 pp gains, demonstrating that the instruction-following deficit is addressable without scale; (3) layout-preserving text provides the largest accuracy gain (+3-18 pp), exceeding pixel-level visual cues; and (4) the benchmark most effectively discriminates models in the 60-95% accuracy band. Dataset and evaluation code are publicly available.