VAREX: Ein Benchmark für multimodale strukturierte Extraktion aus Dokumenten
VAREX: A Benchmark for Multi-Modal Structured Extraction from Documents
March 16, 2026
Autoren: Udi Barzelay, Ophir Azulai, Inbar Shapira, Idan Friedman, Foad Abo Dahood, Madison Lee, Abraham Daniels
cs.AI
Zusammenfassung
Wir stellen VAREX (VARied-schema EXtraction) vor, einen Benchmark zur Bewertung multimodaler Foundation-Modelle für die Extraktion strukturierter Daten aus behördlichen Formularen. VAREX nutzt einen Reverse-Annotation-Pipeline, der PDF-Vorlagen programmgesteuert mit synthetischen Werten befüllt und dabei deterministische Ground-Truth-Daten erzeugt, die durch eine dreistufige Qualitätssicherung validiert werden. Der Benchmark umfasst 1.777 Dokumente mit 1.771 einzigartigen Schemata aus drei strukturellen Kategorien, die jeweils in vier Eingabemodalitäten bereitgestellt werden: reiner Text, layout-erhaltender Text (durch Leerzeichen an Spaltenpositionen angeglichen), Dokumentenbild oder eine Kombination aus Text und Bild. Im Gegensatz zu bestehenden Benchmarks, die nur eine einzige Eingabedarstellung bewerten, bietet VAREX vier kontrollierte Modalitäten pro Dokument und ermöglicht so eine systematische Ablation, wie sich das Eingabeformat auf die Extraktionsgenauigkeit auswirkt – eine Fähigkeit, die früheren Benchmarks fehlte. Wir evaluieren 20 Modelle, von leistungsstarken proprietären Modellen bis hin zu kleinen Open-Modellen, mit besonderem Augenmerk auf Modelle mit ≤4B Parametern, die für kostensensitive und latenzbeschränkte Einsätze geeignet sind. Die Ergebnisse zeigen, dass (1) bei unter 4B Parametern die Konformität der strukturierten Ausgabe – nicht die Extraktionsfähigkeit – ein dominanter Engpass ist; insbesondere Schema-Echo (Modelle erzeugen schemakonforme Strukturen statt extrahierter Werte) senkt die Werte bei betroffenen Modellen um 45–65 Prozentpunkte (pp); (2) extraktionsspezifisches Fine-Tuning bei 2B Parametern Steigerungen von +81 pp bewirkt, was zeigt, dass das Defizit im Instruktionsfolgen ohne Skalierung behoben werden kann; (3) layout-erhaltender Text den größten Genauigkeitsgewinn bringt (+3–18 pp) und pixelbasierte visuelle Hinweise übertrifft; und (4) der Benchmark Modelle im Genauigkeitsbereich von 60–95 % am effektivsten unterscheidet. Datensatz und Evaluierungscode sind öffentlich verfügbar.
English
We introduce VAREX (VARied-schema EXtraction), a benchmark for evaluating multimodal foundation models on structured data extraction from government forms. VAREX employs a Reverse Annotation pipeline that programmatically fills PDF templates with synthetic values, producing deterministic ground truth validated through three-phase quality assurance. The benchmark comprises 1,777 documents with 1,771 unique schemas across three structural categories, each provided in four input modalities: plain text, layout-preserving text (whitespace-aligned to approximate column positions), document image, or both text and image combined. Unlike existing benchmarks that evaluate from a single input representation, VAREX provides four controlled modalities per document, enabling systematic ablation of how input format affects extraction accuracy -- a capability absent from prior benchmarks. We evaluate 20 models from frontier proprietary models to small open models, with particular attention to models <=4B parameters suitable for cost-sensitive and latency-constrained deployment. Results reveal that (1) below 4B parameters, structured output compliance -- not extraction capability -- is a dominant bottleneck; in particular, schema echo (models producing schema-conforming structure instead of extracted values) depresses scores by 45-65 pp (percentage points) in affected models; (2) extraction-specific fine-tuning at 2B yields +81 pp gains, demonstrating that the instruction-following deficit is addressable without scale; (3) layout-preserving text provides the largest accuracy gain (+3-18 pp), exceeding pixel-level visual cues; and (4) the benchmark most effectively discriminates models in the 60-95% accuracy band. Dataset and evaluation code are publicly available.