ChatPaper.aiChatPaper

Рендеринг-ориентированное обучение с подкреплением для генерации векторной графики

Rendering-Aware Reinforcement Learning for Vector Graphics Generation

May 27, 2025
Авторы: Juan A. Rodriguez, Haotian Zhang, Abhay Puri, Aarash Feizi, Rishav Pramanik, Pascal Wichmann, Arnab Mondal, Mohammad Reza Samsami, Rabiul Awal, Perouz Taslakian, Spandana Gella, Sai Rajeswar, David Vazquez, Christopher Pal, Marco Pedersoli
cs.AI

Аннотация

Масштабируемая векторная графика (SVG) представляет собой мощный формат для представления визуальных дизайнов в виде интерпретируемого кода. Последние достижения в моделях, объединяющих зрение и язык (VLMs), позволили добиться высококачественной генерации SVG, формулируя задачу как генерацию кода и используя крупномасштабное предварительное обучение. VLMs особенно подходят для этой задачи, так как они захватывают как глобальную семантику, так и детализированные визуальные паттерны, одновременно перенося знания между областями зрения, естественного языка и кода. Однако существующие подходы на основе VLMs часто сталкиваются с трудностями в создании точных и эффективных SVG, поскольку они никогда не наблюдают визуализированные изображения в процессе обучения. Хотя дифференцируемая визуализация для авторегрессивной генерации кода SVG пока недоступна, визуализированные результаты всё же можно сравнивать с исходными изображениями, что позволяет получать оценочную обратную связь, подходящую для обучения с подкреплением (RL). Мы представляем RLRF (Reinforcement Learning from Rendering Feedback) — метод RL, который улучшает генерацию SVG в авторегрессивных VLMs, используя обратную связь от визуализированных SVG-результатов. Для заданного входного изображения модель генерирует последовательности SVG, которые визуализируются и сравниваются с исходным изображением для вычисления награды. Эта обратная связь по визуальной точности направляет модель на создание более точных, эффективных и семантически согласованных SVG. RLRF значительно превосходит контролируемую тонкую настройку, устраняя типичные ошибки и обеспечивая точную, высококачественную генерацию SVG с глубоким пониманием структуры и обобщением.
English
Scalable Vector Graphics (SVG) offer a powerful format for representing visual designs as interpretable code. Recent advances in vision-language models (VLMs) have enabled high-quality SVG generation by framing the problem as a code generation task and leveraging large-scale pretraining. VLMs are particularly suitable for this task as they capture both global semantics and fine-grained visual patterns, while transferring knowledge across vision, natural language, and code domains. However, existing VLM approaches often struggle to produce faithful and efficient SVGs because they never observe the rendered images during training. Although differentiable rendering for autoregressive SVG code generation remains unavailable, rendered outputs can still be compared to original inputs, enabling evaluative feedback suitable for reinforcement learning (RL). We introduce RLRF(Reinforcement Learning from Rendering Feedback), an RL method that enhances SVG generation in autoregressive VLMs by leveraging feedback from rendered SVG outputs. Given an input image, the model generates SVG roll-outs that are rendered and compared to the original image to compute a reward. This visual fidelity feedback guides the model toward producing more accurate, efficient, and semantically coherent SVGs. RLRF significantly outperforms supervised fine-tuning, addressing common failure modes and enabling precise, high-quality SVG generation with strong structural understanding and generalization.

Summary

AI-Generated Summary

PDF113May 28, 2025