ChatPaper.aiChatPaper

VAREX: Un Punto de Referencia para la Extracción Estructurada Multimodal de Documentos

VAREX: A Benchmark for Multi-Modal Structured Extraction from Documents

March 16, 2026
Autores: Udi Barzelay, Ophir Azulai, Inbar Shapira, Idan Friedman, Foad Abo Dahood, Madison Lee, Abraham Daniels
cs.AI

Resumen

Presentamos VAREX (Extracción de Esquemas VARiados), un benchmark para evaluar modelos de fundación multimodales en la extracción de datos estructurados de formularios gubernamentales. VAREX emplea un pipeline de Anotación Inversa que llena programáticamente plantillas PDF con valores sintéticos, produciendo una verdad de referencia determinística validada mediante una garantía de calidad trifásica. El benchmark comprende 1.777 documentos con 1.771 esquemas únicos distribuidos en tres categorías estructurales, cada uno proporcionado en cuatro modalidades de entrada: texto plano, texto que preserva el diseño (alineado con espacios en blanco para aproximar posiciones de columna), imagen del documento, o una combinación de texto e imagen. A diferencia de benchmarks existentes que evalúan a partir de una única representación de entrada, VAREX proporciona cuatro modalidades controladas por documento, permitiendo una ablación sistemática de cómo el formato de entrada afecta la precisión de la extracción, una capacidad ausente en benchmarks anteriores. Evaluamos 20 modelos, desde modelos propietarios de vanguardia hasta modelos abiertos pequeños, prestando especial atención a modelos de <=4B de parámetros adecuados para despliegues con restricciones de coste y latencia. Los resultados revelan que (1) por debajo de 4B de parámetros, el cumplimiento de la salida estructurada —no la capacidad de extracción— es un cuello de botella dominante; en particular, el eco del esquema (modelos que producen estructura conforme al esquema en lugar de los valores extraídos) reduce las puntuaciones entre 45 y 65 pp (puntos porcentuales) en los modelos afectados; (2) el ajuste fino específico para extracción en modelos de 2B produce ganancias de +81 pp, demostrando que el déficit en el seguimiento de instrucciones es abordable sin aumentar la escala; (3) el texto que preserva el diseño proporciona la mayor ganancia de precisión (+3-18 pp), superando a las pistas visuales a nivel de píxel; y (4) el benchmark discrimina más efectivamente a los modelos en la banda de precisión del 60-95%. El conjunto de datos y el código de evaluación están disponibles públicamente.
English
We introduce VAREX (VARied-schema EXtraction), a benchmark for evaluating multimodal foundation models on structured data extraction from government forms. VAREX employs a Reverse Annotation pipeline that programmatically fills PDF templates with synthetic values, producing deterministic ground truth validated through three-phase quality assurance. The benchmark comprises 1,777 documents with 1,771 unique schemas across three structural categories, each provided in four input modalities: plain text, layout-preserving text (whitespace-aligned to approximate column positions), document image, or both text and image combined. Unlike existing benchmarks that evaluate from a single input representation, VAREX provides four controlled modalities per document, enabling systematic ablation of how input format affects extraction accuracy -- a capability absent from prior benchmarks. We evaluate 20 models from frontier proprietary models to small open models, with particular attention to models <=4B parameters suitable for cost-sensitive and latency-constrained deployment. Results reveal that (1) below 4B parameters, structured output compliance -- not extraction capability -- is a dominant bottleneck; in particular, schema echo (models producing schema-conforming structure instead of extracted values) depresses scores by 45-65 pp (percentage points) in affected models; (2) extraction-specific fine-tuning at 2B yields +81 pp gains, demonstrating that the instruction-following deficit is addressable without scale; (3) layout-preserving text provides the largest accuracy gain (+3-18 pp), exceeding pixel-level visual cues; and (4) the benchmark most effectively discriminates models in the 60-95% accuracy band. Dataset and evaluation code are publicly available.
PDF02March 19, 2026