VAREX : Un benchmark pour l'extraction structurée multi-modale à partir de documents
VAREX: A Benchmark for Multi-Modal Structured Extraction from Documents
March 16, 2026
Auteurs: Udi Barzelay, Ophir Azulai, Inbar Shapira, Idan Friedman, Foad Abo Dahood, Madison Lee, Abraham Daniels
cs.AI
Résumé
Nous présentons VAREX (VARied-schema EXtraction), un benchmark pour évaluer les modèles de fondation multimodaux sur l'extraction de données structurées à partir de formulaires administratifs. VAREX utilise un pipeline d'Annotation Inverse qui remplit programmatiquement des modèles PDF avec des valeurs synthétiques, produisant une vérité terrain déterministe validée par un contrôle qualité en trois phases. Le benchmark comprend 1 777 documents avec 1 771 schémas uniques répartis en trois catégories structurelles, chacun fourni dans quatre modalités d'entrée : texte brut, texte préservant la mise en page (aligné sur les espaces blancs pour approximer les positions des colonnes), image du document, ou une combinaison du texte et de l'image. Contrairement aux benchmarks existants qui évaluent à partir d'une seule représentation d'entrée, VAREX fournit quatre modalités contrôlées par document, permettant une ablation systématique de l'effet du format d'entrée sur la précision de l'extraction — une capacité absente des benchmarks antérieurs. Nous évaluons 20 modèles, allant de modèles propriétaires de pointe à de petits modèles ouverts, en accordant une attention particulière aux modèles de <=4B de paramètres adaptés à un déploiement sensible au coût et contraint par la latence. Les résultats révèlent que (1) en dessous de 4B de paramètres, la conformité de la sortie structurée — et non la capacité d'extraction — est un goulot d'étranglement dominant ; en particulier, l'écho du schéma (les modèles produisant une structure conforme au schéma au lieu des valeurs extraites) réduit les scores de 45 à 65 pp (points de pourcentage) chez les modèles concernés ; (2) un affinage spécifique à l'extraction sur un modèle de 2B procure des gains de +81 pp, démontrant que le déficit de suivi des instructions peut être résolu sans augmentation d'échelle ; (3) le texte préservant la mise en page offre le gain de précision le plus important (+3-18 pp), dépassant les indices visuels au niveau pixel ; et (4) le benchmark discrimine le plus efficacement les modèles dans la bande de précision de 60 à 95 %. Le jeu de données et le code d'évaluation sont publiquement disponibles.
English
We introduce VAREX (VARied-schema EXtraction), a benchmark for evaluating multimodal foundation models on structured data extraction from government forms. VAREX employs a Reverse Annotation pipeline that programmatically fills PDF templates with synthetic values, producing deterministic ground truth validated through three-phase quality assurance. The benchmark comprises 1,777 documents with 1,771 unique schemas across three structural categories, each provided in four input modalities: plain text, layout-preserving text (whitespace-aligned to approximate column positions), document image, or both text and image combined. Unlike existing benchmarks that evaluate from a single input representation, VAREX provides four controlled modalities per document, enabling systematic ablation of how input format affects extraction accuracy -- a capability absent from prior benchmarks. We evaluate 20 models from frontier proprietary models to small open models, with particular attention to models <=4B parameters suitable for cost-sensitive and latency-constrained deployment. Results reveal that (1) below 4B parameters, structured output compliance -- not extraction capability -- is a dominant bottleneck; in particular, schema echo (models producing schema-conforming structure instead of extracted values) depresses scores by 45-65 pp (percentage points) in affected models; (2) extraction-specific fine-tuning at 2B yields +81 pp gains, demonstrating that the instruction-following deficit is addressable without scale; (3) layout-preserving text provides the largest accuracy gain (+3-18 pp), exceeding pixel-level visual cues; and (4) the benchmark most effectively discriminates models in the 60-95% accuracy band. Dataset and evaluation code are publicly available.