Visual-ERM: Beloningsmodellering voor Visuele Gelijkwaardigheid
Visual-ERM: Reward Modeling for Visual Equivalence
March 13, 2026
Auteurs: Ziyu Liu, Shengyuan Ding, Xinyu Fang, Xuanlang Dai, Penghui Yang, Jianze Liang, Jiaqi Wang, Kai Chen, Dahua Lin, Yuhang Zang
cs.AI
Samenvatting
Vision-to-code-taken vereisen dat modellen gestructureerde visuele invoer, zoals grafieken, tabellen en SVG's, reconstrueren naar uitvoerbare of gestructureerde representaties met hoge visuele nauwkeurigheid. Hoewel recente Large Vision Language Models (LVLM's) sterke resultaten behalen via supervised fine-tuning, blijft reinforcement learning uitdagend door slecht afgestemde beloningssignalen. Bestaande beloningen baseren zich op tekstuele regels of op grove gelijkenis van visuele embeddings, waarbij beide methoden tekortschieten in het vastleggen van fijnmazige visuele discrepanties en vatbaar zijn voor reward hacking. Wij stellen de Visual Equivalence Reward Model (Visual-ERM) voor, een multimodaal generatief beloningsmodel dat fijnmazige, interpreteerbare en taakonafhankelijke feedback verschaft om de kwaliteit van vision-to-code direct in de gerenderde visuele ruimte te evalueren. Geïntegreerd in RL verbetert Visual-ERM Qwen3-VL-8B-Instruct met +8.4 voor chart-to-code en levert het consistente winst op voor tabel- en SVG-parsing (gemiddeld +2.7, +4.1), en versterkt het verder test-time scaling via reflectie en revisie. Wij introduceren ook VisualCritic-RewardBench (VC-RewardBench), een benchmark voor het beoordelen van fijnmazige image-to-image-discrepanties bij gestructureerde visuele data, waar Visual-ERM op 8B beslissend beter presteert dan Qwen3-VL-235B-Instruct en zich meet met toonaangevende closed-source modellen. Onze resultaten suggereren dat fijnmazige visuele beloningssupervisie zowel noodzakelijk als voldoende is voor vision-to-code-RL, ongeacht de taakspecificiteit.
English
Vision-to-code tasks require models to reconstruct structured visual inputs, such as charts, tables, and SVGs, into executable or structured representations with high visual fidelity. While recent Large Vision Language Models (LVLMs) achieve strong results via supervised fine-tuning, reinforcement learning remains challenging due to misaligned reward signals. Existing rewards either rely on textual rules or coarse visual embedding similarity, both of which fail to capture fine-grained visual discrepancies and are vulnerable to reward hacking. We propose Visual Equivalence Reward Model (Visual-ERM), a multimodal generative reward model that provides fine-grained, interpretable, and task-agnostic feedback to evaluate vision-to-code quality directly in the rendered visual space. Integrated into RL, Visual-ERM improves Qwen3-VL-8B-Instruct by +8.4 on chart-to-code and yields consistent gains on table and SVG parsing (+2.7, +4.1 on average), and further strengthens test-time scaling via reflection and revision. We also introduce VisualCritic-RewardBench (VC-RewardBench), a benchmark for judging fine-grained image-to-image discrepancies on structured visual data, where Visual-ERM at 8B decisively outperforms Qwen3-VL-235B-Instruct and approaches leading closed-source models. Our results suggest that fine-grained visual reward supervision is both necessary and sufficient for vision-to-code RL, regardless of task specificity.