Betrouwbaar Redeneren in SVG-LLM's via Multi-Task Multi-Beloning Versterkend Leren

Samenvatting

Met de snelle vooruitgang van vision-language modellen verkennen steeds meer onderzoeken hun potentieel voor SVG-generatietaken. Hoewel bestaande benaderingen de prestaties verbeteren door grootschalige SVG-datasets op te bouwen en SVG-specifieke tokens te introduceren, kampen ze nog steeds met beperkte generalisatie, overbodige paden in code-uitvoer en een gebrek aan expliciete redenering. In dit werk presenteren we CTRL-S (Chain-of-Thought Reinforcement Learning voor SVG), een uniform raamwerk dat een chain-of-thought-mechanisme introduceert om het redeneerproces van het model tijdens SVG-generatie expliciet bloot te leggen. Om deze gestructureerde redenering te ondersteunen, construeren we SVG-Sophia, een hoogwaardige dataset met 145K samples voor SVG-code-verfijning, Text-to-SVG en Image-to-SVG taken. Door het model te trainen om gestructureerde SVG-code op groepsniveau te genereren, verbetert CTRL-S de structurele samenhang en visuele getrouwheid aanzienlijk. Verder nemen we het GRPO-algoritme over en ontwerpen we een multi-reward optimalisatieraamwerk, waarin DINO, beeld-tekst gelijkenis, opmaak- en code-efficiëntie beloningen worden geïntegreerd. Door gezamenlijke multi-reward optimalisatie en multi-task training verbetert onze aanpak de algehele generatiecapaciteiten systematisch. Uitgebreide experimenten tonen aan dat CTRL-S bestaande methoden overtreft, met hogere taaksuccespercentages, superieure SVG-codekwaliteit en uitzonderlijke visuele getrouwheid.

English

With the rapid advancement of vision-language models, an increasing number of studies have explored their potential for SVG generation tasks. Although existing approaches improve performance by constructing large-scale SVG datasets and introducing SVG-specific tokens, they still suffer from limited generalization, redundant paths in code outputs, and a lack of explicit reasoning. In this work, we present CTRL-S (Chain-of-Thought Reinforcement Learning for SVG), a unified framework that introduces a chain-of-thought mechanism to explicitly expose the model's reasoning process during SVG generation. To support this structured reasoning, we construct SVG-Sophia, a high-quality dataset containing 145K samples across SVG code refinement, Text-to-SVG, and Image-to-SVG tasks. By training the model to generate group-level structured SVG code, CTRL-S significantly improves structural coherence and visual fidelity. Furthermore, we adopt the GRPO algorithm and design a multi-reward optimization framework, incorporating DINO, image-text similarity, format, and code efficiency rewards. Through joint multi-reward optimization and multi-task training, our approach systematically enhances overall generation capabilities. Extensive experiments show that CTRL-S outperforms existing methods, achieving higher task success rates, superior SVG code quality, and exceptional visual fidelity.

Betrouwbaar Redeneren in SVG-LLM's via Multi-Task Multi-Beloning Versterkend Leren

Reliable Reasoning in SVG-LLMs via Multi-Task Multi-Reward Reinforcement Learning

Samenvatting

Support