ChatPaper.aiChatPaper

다중 과제 다중 보상 강화 학습을 통한 SVG-LLM의 신뢰할 수 있는 추론

Reliable Reasoning in SVG-LLMs via Multi-Task Multi-Reward Reinforcement Learning

March 17, 2026
저자: Haomin Wang, Qi Wei, Qianli Ma, Shengyuan Ding, Jinhui Yin, Kai Chen, Hongjie Zhang
cs.AI

초록

비전-언어 모델의 급속한 발전에 따라 SVG 생성 작업에 대한 잠재력을 탐구하는 연구가 점차 증가하고 있습니다. 기존 접근법들은 대규모 SVG 데이터셋을 구축하고 SVG 전용 토큰을 도입하여 성능을 향상시키지만, 여전히 제한된 일반화 성능, 코드 출력에서의 불필요한 경로 문제, 명시적 추론 부재 등의 한계를 지닙니다. 본 연구에서는 SVG 생성 과정에서 모델의 추론 과정을 명시적으로 드러내는 사고 사슬(chain-of-thought) 메커니즘을 도입한 통합 프레임워크인 CTRL-S(Chain-of-Thought Reinforcement Learning for SVG)를 제안합니다. 이러한 구조화된 추론을 지원하기 위해 SVG 코드 정제, 텍스트-to-SVG, 이미지-to-SVG 작업에 걸쳐 14만 5천 개의 샘플을 포함한 고품질 데이터셋인 SVG-Sophia를 구축했습니다. 그룹 수준의 구조화된 SVG 코드를 생성하도록 모델을 학습시킴으로써 CTRL-S는 구조적 일관성과 시각적 정확도를 크게 향상시킵니다. 더 나아가 GRPO 알고리즘을 채택하고 DINO, 이미지-텍스트 유사도, 형식, 코드 효율성 보상을 포함한 다중 보상 최적화 프레임워크를 설계합니다. 공동 다중 보상 최적화 및 다중 작업 학습을 통해 우리의 접근법은 전체 생성 능력을 체계적으로 향상시킵니다. 광범위한 실험을 통해 CTRL-S가 기존 방법들을 능가하며 더 높은 작업 성공률, 우수한 SVG 코드 품질, 그리고 탁월한 시각적 정확도를 달성함을 입증합니다.
English
With the rapid advancement of vision-language models, an increasing number of studies have explored their potential for SVG generation tasks. Although existing approaches improve performance by constructing large-scale SVG datasets and introducing SVG-specific tokens, they still suffer from limited generalization, redundant paths in code outputs, and a lack of explicit reasoning. In this work, we present CTRL-S (Chain-of-Thought Reinforcement Learning for SVG), a unified framework that introduces a chain-of-thought mechanism to explicitly expose the model's reasoning process during SVG generation. To support this structured reasoning, we construct SVG-Sophia, a high-quality dataset containing 145K samples across SVG code refinement, Text-to-SVG, and Image-to-SVG tasks. By training the model to generate group-level structured SVG code, CTRL-S significantly improves structural coherence and visual fidelity. Furthermore, we adopt the GRPO algorithm and design a multi-reward optimization framework, incorporating DINO, image-text similarity, format, and code efficiency rewards. Through joint multi-reward optimization and multi-task training, our approach systematically enhances overall generation capabilities. Extensive experiments show that CTRL-S outperforms existing methods, achieving higher task success rates, superior SVG code quality, and exceptional visual fidelity.
PDF82March 19, 2026