ChatPaper.aiChatPaper

SVG-LLMにおける信頼性の高い推論:マルチタスク・マルチ報酬強化学習によるアプローチ

Reliable Reasoning in SVG-LLMs via Multi-Task Multi-Reward Reinforcement Learning

March 17, 2026
著者: Haomin Wang, Qi Wei, Qianli Ma, Shengyuan Ding, Jinhui Yin, Kai Chen, Hongjie Zhang
cs.AI

要旨

ビジョン言語モデルの急速な発展に伴い、SVG生成タスクへの応用可能性を探る研究が増加している。既存手法は大規模SVGデータセットの構築やSVG特有のトークン導入により性能向上を図っているが、汎化性能の限界、コード出力における冗長なパス、明示的な推論過程の欠如といった課題が残る。本研究では、SVG生成時にモデルの推論過程を明示的に可視化する連鎖思考(Chain-of-Thought)メカニズムを導入した統一フレームワークCTRL-Sを提案する。この構造化推論を支えるため、SVGコード精緻化、Text-to-SVG、Image-to-SVGタスクに跨る14万5千サンプルからなる高品質データセットSVG-Sophiaを構築した。グループ単位の構造化SVGコード生成を学習させることで、CTRL-Sは構造的一貫性と視覚的忠実度を大幅に改善する。さらにGRPOアルゴリズムを採用し、DINO、画像-テキスト類似度、形式、コード効率性の報酬を組み込んだ多報酬最適化フレームワークを設計した。共同多報酬最適化とマルチタスク学習を通じて、生成能力を体系的に強化する。大規模実験により、CTRL-Sが既存手法を凌駕し、高いタスク成功率、優れたSVGコード品質、卓越した視覚的忠実度を達成することを実証した。
English
With the rapid advancement of vision-language models, an increasing number of studies have explored their potential for SVG generation tasks. Although existing approaches improve performance by constructing large-scale SVG datasets and introducing SVG-specific tokens, they still suffer from limited generalization, redundant paths in code outputs, and a lack of explicit reasoning. In this work, we present CTRL-S (Chain-of-Thought Reinforcement Learning for SVG), a unified framework that introduces a chain-of-thought mechanism to explicitly expose the model's reasoning process during SVG generation. To support this structured reasoning, we construct SVG-Sophia, a high-quality dataset containing 145K samples across SVG code refinement, Text-to-SVG, and Image-to-SVG tasks. By training the model to generate group-level structured SVG code, CTRL-S significantly improves structural coherence and visual fidelity. Furthermore, we adopt the GRPO algorithm and design a multi-reward optimization framework, incorporating DINO, image-text similarity, format, and code efficiency rewards. Through joint multi-reward optimization and multi-task training, our approach systematically enhances overall generation capabilities. Extensive experiments show that CTRL-S outperforms existing methods, achieving higher task success rates, superior SVG code quality, and exceptional visual fidelity.
PDF82March 19, 2026