Renderbewuste Reinforcement Learning voor Vectorafbeeldingen Generatie
Rendering-Aware Reinforcement Learning for Vector Graphics Generation
May 27, 2025
Auteurs: Juan A. Rodriguez, Haotian Zhang, Abhay Puri, Aarash Feizi, Rishav Pramanik, Pascal Wichmann, Arnab Mondal, Mohammad Reza Samsami, Rabiul Awal, Perouz Taslakian, Spandana Gella, Sai Rajeswar, David Vazquez, Christopher Pal, Marco Pedersoli
cs.AI
Samenvatting
Scalable Vector Graphics (SVG) bieden een krachtig formaat voor het representeren van visuele ontwerpen als interpreteerbare code. Recente vooruitgang in vision-language modellen (VLMs) heeft hoogwaardige SVG-generatie mogelijk gemaakt door het probleem te formuleren als een codegeneratietaak en gebruik te maken van grootschalige voorafgaande training. VLMs zijn bijzonder geschikt voor deze taak omdat ze zowel globale semantiek als fijnmazige visuele patronen vastleggen, terwijl ze kennis overdragen tussen visie, natuurlijke taal en code-domeinen. Bestaande VLM-benaderingen hebben echter vaak moeite om getrouwe en efficiënte SVG's te produceren omdat ze tijdens de training nooit de gerenderde afbeeldingen observeren. Hoewel differentieerbaar renderen voor autoregressieve SVG-codegeneratie nog niet beschikbaar is, kunnen gerenderde uitvoer nog steeds worden vergeleken met de originele invoer, wat evaluatieve feedback mogelijk maakt die geschikt is voor reinforcement learning (RL). We introduceren RLRF (Reinforcement Learning from Rendering Feedback), een RL-methode die SVG-generatie in autoregressieve VLMs verbetert door feedback te gebruiken van gerenderde SVG-uitvoer. Gegeven een invoerafbeelding genereert het model SVG-roll-outs die worden gerenderd en vergeleken met de originele afbeelding om een beloning te berekenen. Deze visuele getrouwheidsfeedback leidt het model naar het produceren van nauwkeurigere, efficiëntere en semantisch coherentere SVG's. RLRF presteert aanzienlijk beter dan supervised fine-tuning, lost veelvoorkomende foutmodes op en maakt precieze, hoogwaardige SVG-generatie mogelijk met een sterk structureel begrip en generalisatie.
English
Scalable Vector Graphics (SVG) offer a powerful format for representing
visual designs as interpretable code. Recent advances in vision-language models
(VLMs) have enabled high-quality SVG generation by framing the problem as a
code generation task and leveraging large-scale pretraining. VLMs are
particularly suitable for this task as they capture both global semantics and
fine-grained visual patterns, while transferring knowledge across vision,
natural language, and code domains. However, existing VLM approaches often
struggle to produce faithful and efficient SVGs because they never observe the
rendered images during training. Although differentiable rendering for
autoregressive SVG code generation remains unavailable, rendered outputs can
still be compared to original inputs, enabling evaluative feedback suitable for
reinforcement learning (RL). We introduce RLRF(Reinforcement Learning from
Rendering Feedback), an RL method that enhances SVG generation in
autoregressive VLMs by leveraging feedback from rendered SVG outputs. Given an
input image, the model generates SVG roll-outs that are rendered and compared
to the original image to compute a reward. This visual fidelity feedback guides
the model toward producing more accurate, efficient, and semantically coherent
SVGs. RLRF significantly outperforms supervised fine-tuning, addressing common
failure modes and enabling precise, high-quality SVG generation with strong
structural understanding and generalization.