Visual-ERM: Моделирование функции вознаграждения для визуальной эквивалентности

Аннотация

Задачи преобразования визуальных данных в код требуют от моделей реконструкции структурированных визуальных входных данных, таких как диаграммы, таблицы и SVG, в исполняемые или структурированные представления с высокой визуальной точностью. Хотя современные большие визо-лингвистические модели (LVLM) демонстрируют высокие результаты благодаря обучению с учителем, применение обучения с подкреплением остается сложной задачей из-за несогласованности сигналов вознаграждения. Существующие подходы к вознаграждению основываются либо на текстовых правилах, либо на грубом сходстве визуальных эмбеддингов, но оба метода не способны уловить мелкозернистые визуальные расхождения и уязвимы для взлома системы вознаграждения. Мы предлагаем Модель Визуального Эквивалентного Вознаграждения (Visual-ERM) — мультимодальную генеративную модель вознаграждения, которая обеспечивает мелкозернистую, интерпретируемую и независимую от задачи обратную связь для оценки качества преобразования визуальных данных в код непосредственно в визуальном пространстве рендеринга. Интегрированная в обучение с подкреплением, Visual-ERM улучшает показатели модели Qwen3-VL-8B-Instruct на +8.4 балла в задаче преобразования диаграмм в код и обеспечивает стабильный прирост качества для парсинга таблиц и SVG (+2.7 и +4.1 в среднем), а также дополнительно усиливает масштабируемость во время тестирования за счет рефлексии и пересмотра. Мы также представляем VisualCritic-RewardBench (VC-RewardBench) — бенчмарк для оценки мелкозернистых расхождений между изображениями на структурированных визуальных данных, где модель Visual-ERM с 8 миллиардами параметров уверенно превосходит Qwen3-VL-235B-Instruct и приближается к ведущим проприетарным моделям. Наши результаты свидетельствуют, что мелкозернистый визуальный контроль вознаграждения является необходимым и достаточным условием для обучения с подкреплением в задачах vision-to-code, независимо от специфики конкретной задачи.

English

Vision-to-code tasks require models to reconstruct structured visual inputs, such as charts, tables, and SVGs, into executable or structured representations with high visual fidelity. While recent Large Vision Language Models (LVLMs) achieve strong results via supervised fine-tuning, reinforcement learning remains challenging due to misaligned reward signals. Existing rewards either rely on textual rules or coarse visual embedding similarity, both of which fail to capture fine-grained visual discrepancies and are vulnerable to reward hacking. We propose Visual Equivalence Reward Model (Visual-ERM), a multimodal generative reward model that provides fine-grained, interpretable, and task-agnostic feedback to evaluate vision-to-code quality directly in the rendered visual space. Integrated into RL, Visual-ERM improves Qwen3-VL-8B-Instruct by +8.4 on chart-to-code and yields consistent gains on table and SVG parsing (+2.7, +4.1 on average), and further strengthens test-time scaling via reflection and revision. We also introduce VisualCritic-RewardBench (VC-RewardBench), a benchmark for judging fine-grained image-to-image discrepancies on structured visual data, where Visual-ERM at 8B decisively outperforms Qwen3-VL-235B-Instruct and approaches leading closed-source models. Our results suggest that fine-grained visual reward supervision is both necessary and sufficient for vision-to-code RL, regardless of task specificity.

Visual-ERM: Моделирование функции вознаграждения для визуальной эквивалентности

Visual-ERM: Reward Modeling for Visual Equivalence

Аннотация

Support