Visual-ERM: Modelagem de Recompensa para Equivalência Visual

Resumo

As tarefas de visão-para-código exigem que os modelos reconstruam entradas visuais estruturadas, como gráficos, tabelas e SVGs, em representações executáveis ou estruturadas com alta fidelidade visual. Embora os recentes Grandes Modelos de Linguagem Visual (LVLMs) obtenham resultados sólidos por meio de ajuste fino supervisionado, o aprendizado por reforço permanece desafiador devido a sinais de recompensa desalinhados. As recompensas existentes dependem de regras textuais ou de similaridade de incorporação visual grosseira, ambas falhando em capturar discrepâncias visuais refinadas e sendo vulneráveis a manipulação de recompensa. Propomos o Modelo de Recompensa por Equivalência Visual (Visual-ERM), um modelo generativo multimodal de recompensa que fornece feedback refinado, interpretável e independente de tarefa para avaliar a qualidade visão-para-código diretamente no espaço visual renderizado. Integrado ao RL, o Visual-ERM melhora o Qwen3-VL-8B-Instruct em +8,4 em gráfico-para-código e produz ganhos consistentes na análise de tabelas e SVGs (+2,7, +4,1 em média), e ainda fortalece a escala em tempo de teste por meio de reflexão e revisão. Também introduzimos o VisualCritic-RewardBench (VC-RewardBench), um benchmark para julgar discrepanças refinadas de imagem-para-imagem em dados visuais estruturados, onde o Visual-ERM de 8B supera decisivamente o Qwen3-VL-235B-Instruct e se aproxima dos principais modelos proprietários. Nossos resultados sugerem que a supervisão de recompensa visual refinada é necessária e suficiente para RL em visão-para-código, independentemente da especificidade da tarefa.

English

Vision-to-code tasks require models to reconstruct structured visual inputs, such as charts, tables, and SVGs, into executable or structured representations with high visual fidelity. While recent Large Vision Language Models (LVLMs) achieve strong results via supervised fine-tuning, reinforcement learning remains challenging due to misaligned reward signals. Existing rewards either rely on textual rules or coarse visual embedding similarity, both of which fail to capture fine-grained visual discrepancies and are vulnerable to reward hacking. We propose Visual Equivalence Reward Model (Visual-ERM), a multimodal generative reward model that provides fine-grained, interpretable, and task-agnostic feedback to evaluate vision-to-code quality directly in the rendered visual space. Integrated into RL, Visual-ERM improves Qwen3-VL-8B-Instruct by +8.4 on chart-to-code and yields consistent gains on table and SVG parsing (+2.7, +4.1 on average), and further strengthens test-time scaling via reflection and revision. We also introduce VisualCritic-RewardBench (VC-RewardBench), a benchmark for judging fine-grained image-to-image discrepancies on structured visual data, where Visual-ERM at 8B decisively outperforms Qwen3-VL-235B-Instruct and approaches leading closed-source models. Our results suggest that fine-grained visual reward supervision is both necessary and sufficient for vision-to-code RL, regardless of task specificity.

Visual-ERM: Modelagem de Recompensa para Equivalência Visual

Visual-ERM: Reward Modeling for Visual Equivalence

Resumo

Support