Надежные рассуждения в SVG-LLM с помощью многозадачного обучения с подкреплением и множественными вознаграждениями

Аннотация

С быстрым развитием визуально-языковых моделей все больше исследований изучают их потенциал для задач генерации SVG. Хотя существующие подходы повышают производительность за счет создания масштабируемых наборов данных SVG и введения специализированных SVG-токенов, они по-прежнему страдают от ограниченной обобщающей способности, избыточных путей в выходном коде и отсутствия явных рассуждений. В данной работе мы представляем CTRL-S — унифицированную структуру, которая вводит механизм цепочки рассуждений для явного отображения процесса логического вывода модели во время генерации SVG. Для поддержки этого структурированного рассуждения мы создали SVG-Sophia, высококачественный набор данных, содержащий 145 тыс. образцов для задач очистки кода SVG, преобразования текста в SVG и изображения в SVG. Обучая модель генерировать структурированный SVG-код на групповом уровне, CTRL-S значительно улучшает структурную согласованность и визуальную достоверность. Кроме того, мы применяем алгоритм GRPO и разрабатываем многокритериальную оптимизационную структуру, включающую вознаграждения за DINO, схожесть изображения и текста, формат и эффективность кода. Благодаря совместной многокритериальной оптимизации и многозадачному обучению наш подход систематически повышает общие возможности генерации. Многочисленные эксперименты показывают, что CTRL-S превосходит существующие методы, демонстрируя более высокие показатели успешности выполнения задач, превосходное качество SVG-кода и исключительную визуальную достоверность.

English

With the rapid advancement of vision-language models, an increasing number of studies have explored their potential for SVG generation tasks. Although existing approaches improve performance by constructing large-scale SVG datasets and introducing SVG-specific tokens, they still suffer from limited generalization, redundant paths in code outputs, and a lack of explicit reasoning. In this work, we present CTRL-S (Chain-of-Thought Reinforcement Learning for SVG), a unified framework that introduces a chain-of-thought mechanism to explicitly expose the model's reasoning process during SVG generation. To support this structured reasoning, we construct SVG-Sophia, a high-quality dataset containing 145K samples across SVG code refinement, Text-to-SVG, and Image-to-SVG tasks. By training the model to generate group-level structured SVG code, CTRL-S significantly improves structural coherence and visual fidelity. Furthermore, we adopt the GRPO algorithm and design a multi-reward optimization framework, incorporating DINO, image-text similarity, format, and code efficiency rewards. Through joint multi-reward optimization and multi-task training, our approach systematically enhances overall generation capabilities. Extensive experiments show that CTRL-S outperforms existing methods, achieving higher task success rates, superior SVG code quality, and exceptional visual fidelity.

Надежные рассуждения в SVG-LLM с помощью многозадачного обучения с подкреплением и множественными вознаграждениями

Reliable Reasoning in SVG-LLMs via Multi-Task Multi-Reward Reinforcement Learning

Аннотация

Support