Raisonnement Fiable dans les SVG-LLM via un Apprentissage par Renforcement Multi-Tâches et Multi-Récompenses

Résumé

Avec les progrès rapides des modèles vision-langage, un nombre croissant d'études explorent leur potentiel pour les tâches de génération de SVG. Bien que les approches existantes améliorent les performances en construisant des jeux de données SVG à grande échelle et en introduisant des tokens spécifiques au SVG, elles souffrent encore d'une généralisation limitée, de chemins redondants dans les sorties de code et d'un manque de raisonnement explicite. Dans ce travail, nous présentons CTRL-S (Chain-of-Thought Reinforcement Learning for SVG), un cadre unifié qui introduit un mécanisme de chaîne de pensée pour exposer explicitement le processus de raisonnement du modèle lors de la génération de SVG. Pour soutenir ce raisonnement structuré, nous construisons SVG-Sophia, un jeu de données de haute qualité contenant 145 000 échantillons couvrant les tâches de raffinement de code SVG, de texte-à-SVG et d'image-à-SVG. En entraînant le modèle à générer du code SVG structuré au niveau des groupes, CTRL-S améliore significativement la cohérence structurelle et la fidélité visuelle. De plus, nous adoptons l'algorithme GRPO et concevons un cadre d'optimisation multi-récompenses, intégrant des récompenses basées sur DINO, la similarité image-texte, le format et l'efficacité du code. Grâce à une optimisation multi-récompenses conjointe et un entraînement multi-tâches, notre approche améliore systématiquement les capacités globales de génération. Des expériences approfondies montrent que CTRL-S surpasse les méthodes existantes, atteignant des taux de réussite plus élevés, une qualité de code SVG supérieure et une fidélité visuelle exceptionnelle.

English

With the rapid advancement of vision-language models, an increasing number of studies have explored their potential for SVG generation tasks. Although existing approaches improve performance by constructing large-scale SVG datasets and introducing SVG-specific tokens, they still suffer from limited generalization, redundant paths in code outputs, and a lack of explicit reasoning. In this work, we present CTRL-S (Chain-of-Thought Reinforcement Learning for SVG), a unified framework that introduces a chain-of-thought mechanism to explicitly expose the model's reasoning process during SVG generation. To support this structured reasoning, we construct SVG-Sophia, a high-quality dataset containing 145K samples across SVG code refinement, Text-to-SVG, and Image-to-SVG tasks. By training the model to generate group-level structured SVG code, CTRL-S significantly improves structural coherence and visual fidelity. Furthermore, we adopt the GRPO algorithm and design a multi-reward optimization framework, incorporating DINO, image-text similarity, format, and code efficiency rewards. Through joint multi-reward optimization and multi-task training, our approach systematically enhances overall generation capabilities. Extensive experiments show that CTRL-S outperforms existing methods, achieving higher task success rates, superior SVG code quality, and exceptional visual fidelity.

Raisonnement Fiable dans les SVG-LLM via un Apprentissage par Renforcement Multi-Tâches et Multi-Récompenses

Reliable Reasoning in SVG-LLMs via Multi-Task Multi-Reward Reinforcement Learning

Résumé

Support