ChatPaper.aiChatPaper

VAREX: Un Benchmark per l'Estrazione Strutturata Multi-Modale da Documenti

VAREX: A Benchmark for Multi-Modal Structured Extraction from Documents

March 16, 2026
Autori: Udi Barzelay, Ophir Azulai, Inbar Shapira, Idan Friedman, Foad Abo Dahood, Madison Lee, Abraham Daniels
cs.AI

Abstract

Presentiamo VAREX (VARied-schema EXtraction), un benchmark per valutare i modelli fondazione multimodali nell'estrazione di dati strutturati da moduli governativi. VAREX utilizza una pipeline di Reverse Annotation che compila programmaticamente modelli PDF con valori sintetici, producendo ground truth deterministico validato attraverso un controllo qualità in tre fasi. Il benchmark comprende 1.777 documenti con 1.771 schemi univoci suddivisi in tre categorie strutturali, ciascuno fornito in quattro modalità di input: testo semplice, testo con conservazione del layout (allineato con spazi bianchi per approssimare le posizioni delle colonne), immagine del documento, o combinazione di testo e immagine. A differenza dei benchmark esistenti che valutano da una singola rappresentazione di input, VAREX fornisce quattro modalità controllate per documento, consentendo un'abalazione sistematica di come il formato di input influisca sull'accuratezza dell'estrazione – una capacità assente nei benchmark precedenti. Valutiamo 20 modelli, dai modelli proprietari all'avanguardia a piccoli modelli open, con particolare attenzione ai modelli con ≤4B di parametri adatti per deployment con vincoli di costo e latenza. I risultati rivelano che (1) al di sotto dei 4B di parametri, la conformità dell'output strutturato – non la capacità estrattiva – è un collo di bottiglia dominante; in particolare, l'eco dello schema (modelli che producono una struttura conforme allo schema invece dei valori estratti) riduce i punteggi del 45-65 pp (punti percentuali) nei modelli interessati; (2) un fine-tuning specifico per l'estrazione su modelli da 2B produce guadagni di +81 pp, dimostrando che il deficit nel seguire le istruzioni è risolvibile senza scalare le dimensioni; (3) il testo con conservazione del layout fornisce il maggiore guadagno di accuratezza (+3-18 pp), superando i segnali visivi a livello di pixel; e (4) il benchmark discrimina più efficacemente i modelli nella fascia di accuratezza del 60-95%. Il dataset e il codice di valutazione sono pubblicamente disponibili.
English
We introduce VAREX (VARied-schema EXtraction), a benchmark for evaluating multimodal foundation models on structured data extraction from government forms. VAREX employs a Reverse Annotation pipeline that programmatically fills PDF templates with synthetic values, producing deterministic ground truth validated through three-phase quality assurance. The benchmark comprises 1,777 documents with 1,771 unique schemas across three structural categories, each provided in four input modalities: plain text, layout-preserving text (whitespace-aligned to approximate column positions), document image, or both text and image combined. Unlike existing benchmarks that evaluate from a single input representation, VAREX provides four controlled modalities per document, enabling systematic ablation of how input format affects extraction accuracy -- a capability absent from prior benchmarks. We evaluate 20 models from frontier proprietary models to small open models, with particular attention to models <=4B parameters suitable for cost-sensitive and latency-constrained deployment. Results reveal that (1) below 4B parameters, structured output compliance -- not extraction capability -- is a dominant bottleneck; in particular, schema echo (models producing schema-conforming structure instead of extracted values) depresses scores by 45-65 pp (percentage points) in affected models; (2) extraction-specific fine-tuning at 2B yields +81 pp gains, demonstrating that the instruction-following deficit is addressable without scale; (3) layout-preserving text provides the largest accuracy gain (+3-18 pp), exceeding pixel-level visual cues; and (4) the benchmark most effectively discriminates models in the 60-95% accuracy band. Dataset and evaluation code are publicly available.
PDF22March 31, 2026