Aprendizaje por Refuerzo Consciente del Renderizado para la Generación de Gráficos Vectoriales
Rendering-Aware Reinforcement Learning for Vector Graphics Generation
May 27, 2025
Autores: Juan A. Rodriguez, Haotian Zhang, Abhay Puri, Aarash Feizi, Rishav Pramanik, Pascal Wichmann, Arnab Mondal, Mohammad Reza Samsami, Rabiul Awal, Perouz Taslakian, Spandana Gella, Sai Rajeswar, David Vazquez, Christopher Pal, Marco Pedersoli
cs.AI
Resumen
Los gráficos vectoriales escalables (SVG, por sus siglas en inglés) ofrecen un formato potente para representar diseños visuales como código interpretable. Los avances recientes en modelos de visión y lenguaje (VLMs, por sus siglas en inglés) han permitido la generación de SVG de alta calidad al enmarcar el problema como una tarea de generación de código y aprovechar el preentrenamiento a gran escala. Los VLMs son particularmente adecuados para esta tarea, ya que capturan tanto la semántica global como los patrones visuales detallados, al mismo tiempo que transfieren conocimiento entre los dominios de visión, lenguaje natural y código. Sin embargo, los enfoques existentes basados en VLMs a menudo tienen dificultades para producir SVGs fieles y eficientes porque nunca observan las imágenes renderizadas durante el entrenamiento. Aunque la renderización diferenciada para la generación autoregresiva de código SVG sigue sin estar disponible, las salidas renderizadas aún pueden compararse con las entradas originales, lo que permite retroalimentación evaluativa adecuada para el aprendizaje por refuerzo (RL, por sus siglas en inglés). Introducimos RLRF (Reinforcement Learning from Rendering Feedback), un método de RL que mejora la generación de SVG en VLMs autoregresivos al aprovechar la retroalimentación de las salidas renderizadas de SVG. Dada una imagen de entrada, el modelo genera secuencias de SVG que se renderizan y comparan con la imagen original para calcular una recompensa. Esta retroalimentación de fidelidad visual guía al modelo hacia la producción de SVGs más precisos, eficientes y semánticamente coherentes. RLRF supera significativamente el ajuste fino supervisado, abordando modos de fallo comunes y permitiendo la generación precisa y de alta calidad de SVGs con un fuerte entendimiento estructural y generalización.
English
Scalable Vector Graphics (SVG) offer a powerful format for representing
visual designs as interpretable code. Recent advances in vision-language models
(VLMs) have enabled high-quality SVG generation by framing the problem as a
code generation task and leveraging large-scale pretraining. VLMs are
particularly suitable for this task as they capture both global semantics and
fine-grained visual patterns, while transferring knowledge across vision,
natural language, and code domains. However, existing VLM approaches often
struggle to produce faithful and efficient SVGs because they never observe the
rendered images during training. Although differentiable rendering for
autoregressive SVG code generation remains unavailable, rendered outputs can
still be compared to original inputs, enabling evaluative feedback suitable for
reinforcement learning (RL). We introduce RLRF(Reinforcement Learning from
Rendering Feedback), an RL method that enhances SVG generation in
autoregressive VLMs by leveraging feedback from rendered SVG outputs. Given an
input image, the model generates SVG roll-outs that are rendered and compared
to the original image to compute a reward. This visual fidelity feedback guides
the model toward producing more accurate, efficient, and semantically coherent
SVGs. RLRF significantly outperforms supervised fine-tuning, addressing common
failure modes and enabling precise, high-quality SVG generation with strong
structural understanding and generalization.Summary
AI-Generated Summary