VAREX: Бенчмарк для многомодального структурированного извлечения данных из документов

Аннотация

Мы представляем VAREX (VARied-schema EXtraction) — эталонный набор для оценки мультимодальных базовых моделей в задаче извлечения структурированных данных из государственных форм. VAREX использует конвейер обратной аннотации, который программно заполняет PDF-шаблоны синтетическими значениями, создавая детерминированную разметку, проверенную в ходе трехэтапного контроля качества. Набор включает 1777 документов с 1771 уникальной схемой, распределенных по трем структурным категориям, каждый из которых представлен в четырех входных модальностях: обычный текст, текст с сохранением layout'а (выровненный по пробелам для приближения позиций колонок), изображение документа или комбинация текста и изображения. В отличие от существующих эталонов, оценивающих модели на основе единого представления входных данных, VAREX предоставляет четыре контролируемые модальности на документ, что позволяет систематически исследовать влияние формата ввода на точность извлечения — возможность, отсутствовавшая в предыдущих наборах. Мы оцениваем 20 моделей — от передовых проприетарных до компактных открытых, с особым вниманием к моделям ≤4B параметров, пригодным для развертывания в условиях ограничений по стоимости и задержкам. Результаты показывают, что: (1) при размере менее 4B параметров основным узким местом является не способность к извлечению, а соответствие структурированному выводу; в частности, эхо-эффект схемы (когда модели воспроизводят структуру, соответствующую схеме, вместо извлеченных значений) снижает показатели на 45–65 п.п. у затронутых моделей; (2) специфичная для извлечения дообучение модели на 2B параметрах дает прирост +81 п.п., демонстрируя, что дефицит следования инструкциям устраним без масштабирования; (3) текст с сохранением layout'а обеспечивает наибольший прирост точности (+3–18 п.п.), превосходя визуальные сигналы на уровне пикселей; и (4) набор наиболее эффективно дифференцирует модели в диапазоне точности 60–95%. Данные и код оценки находятся в открытом доступе.

English

We introduce VAREX (VARied-schema EXtraction), a benchmark for evaluating multimodal foundation models on structured data extraction from government forms. VAREX employs a Reverse Annotation pipeline that programmatically fills PDF templates with synthetic values, producing deterministic ground truth validated through three-phase quality assurance. The benchmark comprises 1,777 documents with 1,771 unique schemas across three structural categories, each provided in four input modalities: plain text, layout-preserving text (whitespace-aligned to approximate column positions), document image, or both text and image combined. Unlike existing benchmarks that evaluate from a single input representation, VAREX provides four controlled modalities per document, enabling systematic ablation of how input format affects extraction accuracy -- a capability absent from prior benchmarks. We evaluate 20 models from frontier proprietary models to small open models, with particular attention to models <=4B parameters suitable for cost-sensitive and latency-constrained deployment. Results reveal that (1) below 4B parameters, structured output compliance -- not extraction capability -- is a dominant bottleneck; in particular, schema echo (models producing schema-conforming structure instead of extracted values) depresses scores by 45-65 pp (percentage points) in affected models; (2) extraction-specific fine-tuning at 2B yields +81 pp gains, demonstrating that the instruction-following deficit is addressable without scale; (3) layout-preserving text provides the largest accuracy gain (+3-18 pp), exceeding pixel-level visual cues; and (4) the benchmark most effectively discriminates models in the 60-95% accuracy band. Dataset and evaluation code are publicly available.

VAREX: Бенчмарк для многомодального структурированного извлечения данных из документов

VAREX: A Benchmark for Multi-Modal Structured Extraction from Documents

Аннотация

Support