Razonamiento Confiable en SVG-LLM mediante Aprendizaje por Refuerzo Multitarea con Múltiples Recompensas

Resumen

Con el rápido avance de los modelos de visión y lenguaje, un número creciente de estudios ha explorado su potencial para las tareas de generación de SVG. Aunque los enfoques existentes mejoran el rendimiento mediante la construcción de grandes conjuntos de datos de SVG y la introducción de tokens específicos para SVG, aún adolecen de una generalización limitada, rutas redundantes en las salidas de código y una falta de razonamiento explícito. En este trabajo, presentamos CTRL-S (Chain-of-Thought Reinforcement Learning for SVG), un marco unificado que introduce un mecanismo de cadena de pensamiento para exponer explícitamente el proceso de razonamiento del modelo durante la generación de SVG. Para respaldar este razonamiento estructurado, construimos SVG-Sophia, un conjunto de datos de alta calidad que contiene 145K muestras en las tareas de refinamiento de código SVG, Texto-a-SVG e Imagen-a-SVG. Al entrenar al modelo para generar código SVG estructurado a nivel de grupo, CTRL-S mejora significativamente la coherencia estructural y la fidelidad visual. Además, adoptamos el algoritmo GRPO y diseñamos un marco de optimización de recompensas múltiples, incorporando recompensas de DINO, similitud imagen-texto, formato y eficiencia de código. A través de la optimización conjunta de recompensas múltiples y el entrenamiento multitarea, nuestro enfoque mejora sistemáticamente las capacidades generales de generación. Experimentos exhaustivos demuestran que CTRL-S supera a los métodos existentes, logrando mayores tasas de éxito en las tareas, una calidad de código SVG superior y una excepcional fidelidad visual.

English

With the rapid advancement of vision-language models, an increasing number of studies have explored their potential for SVG generation tasks. Although existing approaches improve performance by constructing large-scale SVG datasets and introducing SVG-specific tokens, they still suffer from limited generalization, redundant paths in code outputs, and a lack of explicit reasoning. In this work, we present CTRL-S (Chain-of-Thought Reinforcement Learning for SVG), a unified framework that introduces a chain-of-thought mechanism to explicitly expose the model's reasoning process during SVG generation. To support this structured reasoning, we construct SVG-Sophia, a high-quality dataset containing 145K samples across SVG code refinement, Text-to-SVG, and Image-to-SVG tasks. By training the model to generate group-level structured SVG code, CTRL-S significantly improves structural coherence and visual fidelity. Furthermore, we adopt the GRPO algorithm and design a multi-reward optimization framework, incorporating DINO, image-text similarity, format, and code efficiency rewards. Through joint multi-reward optimization and multi-task training, our approach systematically enhances overall generation capabilities. Extensive experiments show that CTRL-S outperforms existing methods, achieving higher task success rates, superior SVG code quality, and exceptional visual fidelity.

Razonamiento Confiable en SVG-LLM mediante Aprendizaje por Refuerzo Multitarea con Múltiples Recompensas

Reliable Reasoning in SVG-LLMs via Multi-Task Multi-Reward Reinforcement Learning

Resumen

Support