Ragionamento Affidabile nei SVG-LLM tramite Apprendimento per Rinforzo Multi-Obiettivo e Multi-Ricompensa

Abstract

Con il rapido avanzamento dei modelli visione-linguaggio, un numero crescente di studi ha esplorato il loro potenziale per i compiti di generazione di SVG. Sebbene gli approcci esistenti migliorino le prestazioni costruendo dataset SVG su larga scala e introducendo token specifici per SVG, essi soffrono ancora di generalizzazione limitata, percorsi ridondanti negli output di codice e una mancanza di ragionamento esplicito. In questo lavoro, presentiamo CTRL-S (Chain-of-Thought Reinforcement Learning for SVG), un framework unificato che introduce un meccanismo a catena del pensiero (chain-of-thought) per esporre esplicitamente il processo di ragionamento del modello durante la generazione di SVG. Per supportare questo ragionamento strutturato, costruiamo SVG-Sophia, un dataset di alta qualità contenente 145.000 campioni per i compiti di raffinamento del codice SVG, Text-to-SVG e Image-to-SVG. Addestrando il modello a generare codice SVG strutturato a livello di gruppo, CTRL-S migliora significativamente la coerenza strutturale e la fedeltà visiva. Inoltre, adottiamo l'algoritmo GRPO e progettiamo un framework di ottimizzazione multi-ricompensa, incorporando ricompense basate su DINO, similarità immagine-testo, formato ed efficienza del codice. Attraverso un'ottimizzazione congiunta multi-ricompensa e un addestramento multi-task, il nostro approccio migliora sistematicamente le capacità generative complessive. Esperimenti estensivi mostrano che CTRL-S supera i metodi esistenti, raggiungendo tassi di successo del compito più elevati, una qualità superiore del codice SVG e una fedeltà visiva eccezionale.

English

With the rapid advancement of vision-language models, an increasing number of studies have explored their potential for SVG generation tasks. Although existing approaches improve performance by constructing large-scale SVG datasets and introducing SVG-specific tokens, they still suffer from limited generalization, redundant paths in code outputs, and a lack of explicit reasoning. In this work, we present CTRL-S (Chain-of-Thought Reinforcement Learning for SVG), a unified framework that introduces a chain-of-thought mechanism to explicitly expose the model's reasoning process during SVG generation. To support this structured reasoning, we construct SVG-Sophia, a high-quality dataset containing 145K samples across SVG code refinement, Text-to-SVG, and Image-to-SVG tasks. By training the model to generate group-level structured SVG code, CTRL-S significantly improves structural coherence and visual fidelity. Furthermore, we adopt the GRPO algorithm and design a multi-reward optimization framework, incorporating DINO, image-text similarity, format, and code efficiency rewards. Through joint multi-reward optimization and multi-task training, our approach systematically enhances overall generation capabilities. Extensive experiments show that CTRL-S outperforms existing methods, achieving higher task success rates, superior SVG code quality, and exceptional visual fidelity.

Ragionamento Affidabile nei SVG-LLM tramite Apprendimento per Rinforzo Multi-Obiettivo e Multi-Ricompensa

Reliable Reasoning in SVG-LLMs via Multi-Task Multi-Reward Reinforcement Learning

Abstract

Support