Zuverlässiges Schließen in SVG-LLMs durch Multi-Task-Multi-Reward-Verstärkungslernen

Zusammenfassung

Mit der rasanten Entwicklung von Vision-Language-Modellen untersuchen immer mehr Studien deren Potenzial für SVG-Generierungsaufgaben. Obwohl bestehende Ansätze die Leistung durch den Aufbau groß angelegter SVG-Datensätze und die Einführung SVG-spezifischer Tokens verbessern, leiden sie nach wie vor unter eingeschränkter Generalisierungsfähigkeit, redundanten Pfaden in den Code-Ausgaben und einem Mangel an expliziter Schlussfolgerungsfähigkeit. In dieser Arbeit stellen wir CTRL-S (Chain-of-Thought Reinforcement Learning for SVG) vor, einen einheitlichen Rahmen, der einen Chain-of-Thought-Mechanismus einführt, um den Schlussfolgerungsprozess des Modells während der SVG-Generierung explizit darzulegen. Um diese strukturierte Schlussfolgerung zu unterstützen, erstellen wir SVG-Sophia, einen hochwertigen Datensatz mit 145.000 Stichproben für die Aufgabenbereiche SVG-Code-Verfeinerung, Text-zu-SVG und Bild-zu-SVG. Indem das Modell trainiert wird, gruppenweise strukturierten SVG-Code zu generieren, verbessert CTRL-S signifikant die strukturelle Kohärenz und visuelle Treue. Darüber hinaus adaptieren wir den GRPO-Algorithmus und entwerfen ein Multi-Reward-Optimierungsframework, das DINO-, Bild-Text-Ähnlichkeits-, Format- und Code-Effizienz-Belohnungen integriert. Durch gemeinsame Multi-Reward-Optimierung und Multi-Task-Training verbessert unser Ansatz systematisch die gesamten Generierungsfähigkeiten. Umfangreiche Experimente zeigen, dass CTRL-S bestehende Methoden übertrifft und höhere Aufgaben-Erfolgsquoten, überlegene SVG-Code-Qualität und außergewöhnliche visuelle Treue erreicht.

English

With the rapid advancement of vision-language models, an increasing number of studies have explored their potential for SVG generation tasks. Although existing approaches improve performance by constructing large-scale SVG datasets and introducing SVG-specific tokens, they still suffer from limited generalization, redundant paths in code outputs, and a lack of explicit reasoning. In this work, we present CTRL-S (Chain-of-Thought Reinforcement Learning for SVG), a unified framework that introduces a chain-of-thought mechanism to explicitly expose the model's reasoning process during SVG generation. To support this structured reasoning, we construct SVG-Sophia, a high-quality dataset containing 145K samples across SVG code refinement, Text-to-SVG, and Image-to-SVG tasks. By training the model to generate group-level structured SVG code, CTRL-S significantly improves structural coherence and visual fidelity. Furthermore, we adopt the GRPO algorithm and design a multi-reward optimization framework, incorporating DINO, image-text similarity, format, and code efficiency rewards. Through joint multi-reward optimization and multi-task training, our approach systematically enhances overall generation capabilities. Extensive experiments show that CTRL-S outperforms existing methods, achieving higher task success rates, superior SVG code quality, and exceptional visual fidelity.

Zuverlässiges Schließen in SVG-LLMs durch Multi-Task-Multi-Reward-Verstärkungslernen

Reliable Reasoning in SVG-LLMs via Multi-Task Multi-Reward Reinforcement Learning

Zusammenfassung

Support