ChatPaper.aiChatPaper

Aprendizado por Reforço Consciente de Renderização para Geração de Gráficos Vetoriais

Rendering-Aware Reinforcement Learning for Vector Graphics Generation

May 27, 2025
Autores: Juan A. Rodriguez, Haotian Zhang, Abhay Puri, Aarash Feizi, Rishav Pramanik, Pascal Wichmann, Arnab Mondal, Mohammad Reza Samsami, Rabiul Awal, Perouz Taslakian, Spandana Gella, Sai Rajeswar, David Vazquez, Christopher Pal, Marco Pedersoli
cs.AI

Resumo

Os Gráficos Vetoriais Escaláveis (SVG) oferecem um formato poderoso para representar designs visuais como código interpretável. Avanços recentes em modelos de visão e linguagem (VLMs) permitiram a geração de SVGs de alta qualidade ao enquadrar o problema como uma tarefa de geração de código e aproveitar o pré-treinamento em larga escala. Os VLMs são particularmente adequados para essa tarefa, pois capturam tanto a semântica global quanto os padrões visuais detalhados, ao mesmo tempo em que transferem conhecimento entre os domínios de visão, linguagem natural e código. No entanto, as abordagens existentes de VLMs frequentemente têm dificuldade em produzir SVGs fiéis e eficientes, pois nunca observam as imagens renderizadas durante o treinamento. Embora a renderização diferenciável para geração autoregressiva de código SVG ainda não esteja disponível, as saídas renderizadas ainda podem ser comparadas às entradas originais, permitindo feedback avaliativo adequado para o aprendizado por reforço (RL). Introduzimos o RLRF (Reinforcement Learning from Rendering Feedback), um método de RL que aprimora a geração de SVGs em VLMs autoregressivos ao aproveitar o feedback das saídas SVG renderizadas. Dada uma imagem de entrada, o modelo gera sequências de SVG que são renderizadas e comparadas à imagem original para calcular uma recompensa. Esse feedback de fidelidade visual orienta o modelo a produzir SVGs mais precisos, eficientes e semanticamente coerentes. O RLRF supera significativamente o ajuste fino supervisionado, abordando modos de falha comuns e permitindo a geração precisa e de alta qualidade de SVGs com forte compreensão estrutural e generalização.
English
Scalable Vector Graphics (SVG) offer a powerful format for representing visual designs as interpretable code. Recent advances in vision-language models (VLMs) have enabled high-quality SVG generation by framing the problem as a code generation task and leveraging large-scale pretraining. VLMs are particularly suitable for this task as they capture both global semantics and fine-grained visual patterns, while transferring knowledge across vision, natural language, and code domains. However, existing VLM approaches often struggle to produce faithful and efficient SVGs because they never observe the rendered images during training. Although differentiable rendering for autoregressive SVG code generation remains unavailable, rendered outputs can still be compared to original inputs, enabling evaluative feedback suitable for reinforcement learning (RL). We introduce RLRF(Reinforcement Learning from Rendering Feedback), an RL method that enhances SVG generation in autoregressive VLMs by leveraging feedback from rendered SVG outputs. Given an input image, the model generates SVG roll-outs that are rendered and compared to the original image to compute a reward. This visual fidelity feedback guides the model toward producing more accurate, efficient, and semantically coherent SVGs. RLRF significantly outperforms supervised fine-tuning, addressing common failure modes and enabling precise, high-quality SVG generation with strong structural understanding and generalization.
PDF123December 4, 2025