VAREX: Um Benchmark para Extração Estruturada Multimodal de Documentos

Resumo

Apresentamos o VAREX (VARied-schema EXtraction), um *benchmark* para avaliar modelos de fundo multimodais na extração de dados estruturados de formulários governamentais. O VAREX emprega um *pipeline* de Anotação Reversa que preenche programaticamente modelos de PDF com valores sintéticos, produzindo uma *ground truth* determinística validada por uma garantia de qualidade trifásica. O *benchmark* compreende 1.777 documentos com 1.771 esquemas únicos, distribuídos em três categorias estruturais, cada um fornecido em quatro modalidades de entrada: texto simples, texto com preservação de layout (alinhado por espaços em branco para aproximar posições de coluna), imagem do documento, ou ambos texto e imagem combinados. Diferente de *benchmarks* existentes que avaliam a partir de uma única representação de entrada, o VAREX fornece quatro modalidades controladas por documento, permitindo uma ablação sistemática de como o formato de entrada afeta a precisão da extração — uma capacidade ausente em *benchmarks* anteriores. Avaliamos 20 modelos, desde modelos proprietários de ponta até pequenos modelos abertos, com atenção especial a modelos <=4B de parâmetros adequados para implantação sensível a custos e com restrições de latência. Os resultados revelam que (1) abaixo de 4B de parâmetros, a conformidade com a saída estruturada — e não a capacidade de extração — é um gargalo dominante; em particular, o eco de esquema (modelos que produzem estrutura conforme o esquema em vez dos valores extraídos) reduz as pontuações em 45-65 pp (pontos percentuais) nos modelos afetados; (2) o *fine-tuning* específico para extração em modelos de 2B produz ganhos de +81 pp, demonstrando que o déficit no seguimento de instruções é solucionável sem escala; (3) o texto com preservação de layout proporciona o maior ganho de precisão (+3-18 pp), superando pistas visuais a nível de pixel; e (4) o *benchmark* discrimina os modelos com mais eficácia na faixa de 60-95% de precisão. O conjunto de dados e o código de avaliação estão publicamente disponíveis.

English

We introduce VAREX (VARied-schema EXtraction), a benchmark for evaluating multimodal foundation models on structured data extraction from government forms. VAREX employs a Reverse Annotation pipeline that programmatically fills PDF templates with synthetic values, producing deterministic ground truth validated through three-phase quality assurance. The benchmark comprises 1,777 documents with 1,771 unique schemas across three structural categories, each provided in four input modalities: plain text, layout-preserving text (whitespace-aligned to approximate column positions), document image, or both text and image combined. Unlike existing benchmarks that evaluate from a single input representation, VAREX provides four controlled modalities per document, enabling systematic ablation of how input format affects extraction accuracy -- a capability absent from prior benchmarks. We evaluate 20 models from frontier proprietary models to small open models, with particular attention to models <=4B parameters suitable for cost-sensitive and latency-constrained deployment. Results reveal that (1) below 4B parameters, structured output compliance -- not extraction capability -- is a dominant bottleneck; in particular, schema echo (models producing schema-conforming structure instead of extracted values) depresses scores by 45-65 pp (percentage points) in affected models; (2) extraction-specific fine-tuning at 2B yields +81 pp gains, demonstrating that the instruction-following deficit is addressable without scale; (3) layout-preserving text provides the largest accuracy gain (+3-18 pp), exceeding pixel-level visual cues; and (4) the benchmark most effectively discriminates models in the 60-95% accuracy band. Dataset and evaluation code are publicly available.

VAREX: Um Benchmark para Extração Estruturada Multimodal de Documentos

VAREX: A Benchmark for Multi-Modal Structured Extraction from Documents

Resumo

Support