Rendering-bewusstes Reinforcement Learning zur Erzeugung von Vektorgrafiken
Rendering-Aware Reinforcement Learning for Vector Graphics Generation
May 27, 2025
papers.authors: Juan A. Rodriguez, Haotian Zhang, Abhay Puri, Aarash Feizi, Rishav Pramanik, Pascal Wichmann, Arnab Mondal, Mohammad Reza Samsami, Rabiul Awal, Perouz Taslakian, Spandana Gella, Sai Rajeswar, David Vazquez, Christopher Pal, Marco Pedersoli
cs.AI
papers.abstract
Scalable Vector Graphics (SVG) bieten ein leistungsstarkes Format zur Darstellung von visuellen Designs als interpretierbarer Code. Jüngste Fortschritte in Vision-Language-Modellen (VLMs) haben die hochwertige SVG-Generierung ermöglicht, indem das Problem als Code-Generierungsaufgabe formuliert und groß angelegtes Pre-Training genutzt wurde. VLMs sind besonders geeignet für diese Aufgabe, da sie sowohl globale Semantik als auch fein abgestimmte visuelle Muster erfassen und dabei Wissen über die Bereiche Vision, natürliche Sprache und Code transferieren. Allerdings haben bestehende VLM-Ansätze oft Schwierigkeiten, treue und effiziente SVGs zu erzeugen, da sie während des Trainings nie die gerenderten Bilder beobachten. Obwohl differenzierbares Rendering für autoregressive SVG-Code-Generierung noch nicht verfügbar ist, können gerenderte Ausgaben dennoch mit den ursprünglichen Eingaben verglichen werden, was evaluatives Feedback ermöglicht, das für Reinforcement Learning (RL) geeignet ist. Wir stellen RLRF (Reinforcement Learning from Rendering Feedback) vor, eine RL-Methode, die die SVG-Generierung in autoregressiven VLMs verbessert, indem Feedback von gerenderten SVG-Ausgaben genutzt wird. Bei einem Eingabebild generiert das Modell SVG-Rollouts, die gerendert und mit dem Originalbild verglichen werden, um eine Belohnung zu berechnen. Dieses visuelle Treue-Feedback führt das Modell dazu, präzisere, effizientere und semantisch kohärentere SVGs zu erzeugen. RLRF übertrifft überwachtes Fine-Tuning deutlich, behebt häufige Fehlermodi und ermöglicht eine präzise, hochwertige SVG-Generierung mit starkem strukturellem Verständnis und Generalisierungsfähigkeit.
English
Scalable Vector Graphics (SVG) offer a powerful format for representing
visual designs as interpretable code. Recent advances in vision-language models
(VLMs) have enabled high-quality SVG generation by framing the problem as a
code generation task and leveraging large-scale pretraining. VLMs are
particularly suitable for this task as they capture both global semantics and
fine-grained visual patterns, while transferring knowledge across vision,
natural language, and code domains. However, existing VLM approaches often
struggle to produce faithful and efficient SVGs because they never observe the
rendered images during training. Although differentiable rendering for
autoregressive SVG code generation remains unavailable, rendered outputs can
still be compared to original inputs, enabling evaluative feedback suitable for
reinforcement learning (RL). We introduce RLRF(Reinforcement Learning from
Rendering Feedback), an RL method that enhances SVG generation in
autoregressive VLMs by leveraging feedback from rendered SVG outputs. Given an
input image, the model generates SVG roll-outs that are rendered and compared
to the original image to compute a reward. This visual fidelity feedback guides
the model toward producing more accurate, efficient, and semantically coherent
SVGs. RLRF significantly outperforms supervised fine-tuning, addressing common
failure modes and enabling precise, high-quality SVG generation with strong
structural understanding and generalization.