Apprentissage par renforcement conscient du rendu pour la génération de graphiques vectoriels
Rendering-Aware Reinforcement Learning for Vector Graphics Generation
May 27, 2025
Auteurs: Juan A. Rodriguez, Haotian Zhang, Abhay Puri, Aarash Feizi, Rishav Pramanik, Pascal Wichmann, Arnab Mondal, Mohammad Reza Samsami, Rabiul Awal, Perouz Taslakian, Spandana Gella, Sai Rajeswar, David Vazquez, Christopher Pal, Marco Pedersoli
cs.AI
Résumé
Les graphiques vectoriels évolutifs (SVG) offrent un format puissant pour représenter des conceptions visuelles sous forme de code interprétable. Les récents progrès des modèles vision-langage (VLMs) ont permis une génération de SVG de haute qualité en reformulant le problème comme une tâche de génération de code et en exploitant un pré-entraînement à grande échelle. Les VLMs sont particulièrement adaptés à cette tâche car ils capturent à la fois la sémantique globale et les motifs visuels détaillés, tout en transférant des connaissances entre les domaines de la vision, du langage naturel et du code. Cependant, les approches existantes basées sur les VLMs peinent souvent à produire des SVG fidèles et efficaces, car elles n'observent jamais les images rendues pendant l'entraînement. Bien que le rendu différentiable pour la génération de code SVG autorégressif reste indisponible, les sorties rendues peuvent toujours être comparées aux entrées originales, permettant un retour d'évaluation adapté à l'apprentissage par renforcement (RL). Nous introduisons RLRF (Reinforcement Learning from Rendering Feedback), une méthode RL qui améliore la génération de SVG dans les VLMs autorégressifs en exploitant les retours des sorties SVG rendues. Étant donnée une image d'entrée, le modèle génère des séquences SVG qui sont rendues et comparées à l'image originale pour calculer une récompense. Ce retour de fidélité visuelle guide le modèle vers la production de SVG plus précis, efficaces et sémantiquement cohérents. RLRF surpasse significativement le réglage supervisé, en corrigeant les modes d'échec courants et en permettant une génération de SVG précise et de haute qualité avec une compréhension structurelle et une généralisation solides.
English
Scalable Vector Graphics (SVG) offer a powerful format for representing
visual designs as interpretable code. Recent advances in vision-language models
(VLMs) have enabled high-quality SVG generation by framing the problem as a
code generation task and leveraging large-scale pretraining. VLMs are
particularly suitable for this task as they capture both global semantics and
fine-grained visual patterns, while transferring knowledge across vision,
natural language, and code domains. However, existing VLM approaches often
struggle to produce faithful and efficient SVGs because they never observe the
rendered images during training. Although differentiable rendering for
autoregressive SVG code generation remains unavailable, rendered outputs can
still be compared to original inputs, enabling evaluative feedback suitable for
reinforcement learning (RL). We introduce RLRF(Reinforcement Learning from
Rendering Feedback), an RL method that enhances SVG generation in
autoregressive VLMs by leveraging feedback from rendered SVG outputs. Given an
input image, the model generates SVG roll-outs that are rendered and compared
to the original image to compute a reward. This visual fidelity feedback guides
the model toward producing more accurate, efficient, and semantically coherent
SVGs. RLRF significantly outperforms supervised fine-tuning, addressing common
failure modes and enabling precise, high-quality SVG generation with strong
structural understanding and generalization.Summary
AI-Generated Summary