ChatPaper.aiChatPaper

VAREX: Een benchmark voor multi-modale gestructureerde extractie uit documenten

VAREX: A Benchmark for Multi-Modal Structured Extraction from Documents

March 16, 2026
Auteurs: Udi Barzelay, Ophir Azulai, Inbar Shapira, Idan Friedman, Foad Abo Dahood, Madison Lee, Abraham Daniels
cs.AI

Samenvatting

Wij introduceren VAREX (VARied-schema EXtraction), een benchmark voor het evalueren van multimodale foundation-modellen op het gebied van gestructureerde data-extractie uit overheidsformulieren. VAREX gebruikt een Reverse Annotation-pijplijn die programmatisch PDF-sjablonen invult met synthetische waarden, waarbij deterministische grondwaarden worden geproduceerd die zijn gevalideerd via een drie-fasen kwaliteitscontrole. De benchmark omvat 1.777 documenten met 1.771 unieke schema's verdeeld over drie structurele categorieën, elk aangeboden in vier invoermodaliteiten: platte tekst, layout-behoudende tekst (witruimte-uitgelijnd om kolomposities te benaderen), documentafbeelding, of een combinatie van tekst en afbeelding. In tegenstelling tot bestaande benchmarks die vanuit één enkele invoerweergave evalueren, biedt VAREX vier gecontroleerde modaliteiten per document, waardoor een systematische ablatiestudie mogelijk is naar hoe het invoerformaat de extractienauwkeurigheid beïnvloedt – een mogelijkheid die ontbreekt in eerdere benchmarks. Wij evalueren 20 modellen, van geavanceerde propriëtaire modellen tot kleine open modellen, met bijzondere aandacht voor modellen van ≤4B parameters die geschikt zijn voor kostengevoelige en latentiebeperkte implementatie. De resultaten tonen aan dat (1) onder de 4B parameters, naleving van gestructureerde output – niet de extractiecapaciteit – een dominante bottleneck is; in het bijzonder verlaagt schema-echo (modellen die een schema-conforme structuur produceren in plaats van geëxtraheerde waarden) de scores met 45-65 procentpunt (pp) bij de getroffen modellen; (2) extractie-specifieke fine-tuning bij 2B parameters levert winsten op van +81 pp, wat aantoont dat het instructievolgtekort oplosbaar is zonder schaalvergroting; (3) layout-behoudende tekst de grootste nauwkeurigheidswinst oplevert (+3-18 pp), die visuele cues op pixelniveau overstijgt; en (4) de benchmark modellen het meest effectief onderscheidt in het nauwkeurigheidsbereik van 60-95%. De dataset en evaluatiecode zijn openbaar beschikbaar.
English
We introduce VAREX (VARied-schema EXtraction), a benchmark for evaluating multimodal foundation models on structured data extraction from government forms. VAREX employs a Reverse Annotation pipeline that programmatically fills PDF templates with synthetic values, producing deterministic ground truth validated through three-phase quality assurance. The benchmark comprises 1,777 documents with 1,771 unique schemas across three structural categories, each provided in four input modalities: plain text, layout-preserving text (whitespace-aligned to approximate column positions), document image, or both text and image combined. Unlike existing benchmarks that evaluate from a single input representation, VAREX provides four controlled modalities per document, enabling systematic ablation of how input format affects extraction accuracy -- a capability absent from prior benchmarks. We evaluate 20 models from frontier proprietary models to small open models, with particular attention to models <=4B parameters suitable for cost-sensitive and latency-constrained deployment. Results reveal that (1) below 4B parameters, structured output compliance -- not extraction capability -- is a dominant bottleneck; in particular, schema echo (models producing schema-conforming structure instead of extracted values) depresses scores by 45-65 pp (percentage points) in affected models; (2) extraction-specific fine-tuning at 2B yields +81 pp gains, demonstrating that the instruction-following deficit is addressable without scale; (3) layout-preserving text provides the largest accuracy gain (+3-18 pp), exceeding pixel-level visual cues; and (4) the benchmark most effectively discriminates models in the 60-95% accuracy band. Dataset and evaluation code are publicly available.
PDF02March 19, 2026