Apprendimento per Rinforzo Orientato al Rendering per la Generazione di Grafica Vettoriale
Rendering-Aware Reinforcement Learning for Vector Graphics Generation
May 27, 2025
Autori: Juan A. Rodriguez, Haotian Zhang, Abhay Puri, Aarash Feizi, Rishav Pramanik, Pascal Wichmann, Arnab Mondal, Mohammad Reza Samsami, Rabiul Awal, Perouz Taslakian, Spandana Gella, Sai Rajeswar, David Vazquez, Christopher Pal, Marco Pedersoli
cs.AI
Abstract
Scalable Vector Graphics (SVG) offrono un formato potente per rappresentare
design visivi come codice interpretabile. I recenti progressi nei modelli
visione-linguaggio (VLMs) hanno abilitato la generazione di SVG di alta qualità
inquadrando il problema come un task di generazione di codice e sfruttando il
pretraining su larga scala. I VLMs sono particolarmente adatti per questo compito
poiché catturano sia la semantica globale che i pattern visivi dettagliati,
trasferendo conoscenze tra i domini della visione, del linguaggio naturale e del
codice. Tuttavia, gli approcci VLM esistenti spesso faticano a produrre SVG fedeli
ed efficienti perché non osservano mai le immagini renderizzate durante l'addestramento.
Sebbene il rendering differenziabile per la generazione autoregressiva di codice SVG
rimanga indisponibile, gli output renderizzati possono comunque essere confrontati
con gli input originali, consentendo un feedback valutativo adatto al reinforcement
learning (RL). Introduciamo RLRF (Reinforcement Learning from Rendering Feedback),
un metodo RL che migliora la generazione di SVG nei VLMs autoregressivi sfruttando
il feedback dagli output SVG renderizzati. Data un'immagine in input, il modello
genera sequenze SVG che vengono renderizzate e confrontate con l'immagine originale
per calcolare una ricompensa. Questo feedback sulla fedeltà visiva guida il modello
verso la produzione di SVG più accurati, efficienti e semanticamente coerenti. RLRF
supera significativamente il fine-tuning supervisionato, affrontando i comuni casi
di fallimento e abilitando una generazione di SVG precisa e di alta qualità con una
forte comprensione strutturale e capacità di generalizzazione.
English
Scalable Vector Graphics (SVG) offer a powerful format for representing
visual designs as interpretable code. Recent advances in vision-language models
(VLMs) have enabled high-quality SVG generation by framing the problem as a
code generation task and leveraging large-scale pretraining. VLMs are
particularly suitable for this task as they capture both global semantics and
fine-grained visual patterns, while transferring knowledge across vision,
natural language, and code domains. However, existing VLM approaches often
struggle to produce faithful and efficient SVGs because they never observe the
rendered images during training. Although differentiable rendering for
autoregressive SVG code generation remains unavailable, rendered outputs can
still be compared to original inputs, enabling evaluative feedback suitable for
reinforcement learning (RL). We introduce RLRF(Reinforcement Learning from
Rendering Feedback), an RL method that enhances SVG generation in
autoregressive VLMs by leveraging feedback from rendered SVG outputs. Given an
input image, the model generates SVG roll-outs that are rendered and compared
to the original image to compute a reward. This visual fidelity feedback guides
the model toward producing more accurate, efficient, and semantically coherent
SVGs. RLRF significantly outperforms supervised fine-tuning, addressing common
failure modes and enabling precise, high-quality SVG generation with strong
structural understanding and generalization.