Raciocínio Confiável em SVG-LLMs via Aprendizado por Reforço Multi-Tarefa e Multi-Recompensa

Resumo

Com o rápido avanço dos modelos visão-linguagem, um número crescente de estudos tem explorado seu potencial para tarefas de geração de SVG. Embora as abordagens existentes melhorem o desempenho através da construção de grandes conjuntos de dados SVG e da introdução de tokens específicos para SVG, elas ainda sofrem com generalização limitada, caminhos redundantes nas saídas de código e falta de raciocínio explícito. Neste trabalho, apresentamos o CTRL-S (Chain-of-Thought Reinforcement Learning for SVG), uma estrutura unificada que introduz um mecanismo de cadeia de pensamento para expor explicitamente o processo de raciocínio do modelo durante a geração de SVG. Para suportar este raciocínio estruturado, construímos o SVG-Sophia, um conjunto de dados de alta qualidade contendo 145 mil amostras abrangendo tarefas de refinamento de código SVG, Texto-para-SVG e Imagem-para-SVG. Ao treinar o modelo para gerar código SVG estruturado em nível de grupo, o CTRL-S melhora significativamente a coerência estrutural e a fidelidade visual. Além disso, adotamos o algoritmo GRPO e projetamos uma estrutura de otimização multi-recompensa, incorporando recompensas de DINO, similaridade imagem-texto, formato e eficiência de código. Através da otimização conjunta multi-recompensa e do treinamento multitarefa, nossa abordagem aprimora sistematicamente as capacidades gerais de geração. Experimentos extensivos mostram que o CTRL-S supera os métodos existentes, alcançando taxas de sucesso de tarefa mais altas, qualidade superior do código SVG e fidelidade visual excepcional.

English

With the rapid advancement of vision-language models, an increasing number of studies have explored their potential for SVG generation tasks. Although existing approaches improve performance by constructing large-scale SVG datasets and introducing SVG-specific tokens, they still suffer from limited generalization, redundant paths in code outputs, and a lack of explicit reasoning. In this work, we present CTRL-S (Chain-of-Thought Reinforcement Learning for SVG), a unified framework that introduces a chain-of-thought mechanism to explicitly expose the model's reasoning process during SVG generation. To support this structured reasoning, we construct SVG-Sophia, a high-quality dataset containing 145K samples across SVG code refinement, Text-to-SVG, and Image-to-SVG tasks. By training the model to generate group-level structured SVG code, CTRL-S significantly improves structural coherence and visual fidelity. Furthermore, we adopt the GRPO algorithm and design a multi-reward optimization framework, incorporating DINO, image-text similarity, format, and code efficiency rewards. Through joint multi-reward optimization and multi-task training, our approach systematically enhances overall generation capabilities. Extensive experiments show that CTRL-S outperforms existing methods, achieving higher task success rates, superior SVG code quality, and exceptional visual fidelity.

Raciocínio Confiável em SVG-LLMs via Aprendizado por Reforço Multi-Tarefa e Multi-Recompensa

Reliable Reasoning in SVG-LLMs via Multi-Task Multi-Reward Reinforcement Learning

Resumo

Support