ChatPaper.aiChatPaper

レンダリングを考慮した強化学習によるベクターグラフィックス生成

Rendering-Aware Reinforcement Learning for Vector Graphics Generation

May 27, 2025
著者: Juan A. Rodriguez, Haotian Zhang, Abhay Puri, Aarash Feizi, Rishav Pramanik, Pascal Wichmann, Arnab Mondal, Mohammad Reza Samsami, Rabiul Awal, Perouz Taslakian, Spandana Gella, Sai Rajeswar, David Vazquez, Christopher Pal, Marco Pedersoli
cs.AI

要旨

スケーラブル・ベクター・グラフィックス(SVG)は、視覚的なデザインを解釈可能なコードとして表現するための強力なフォーマットを提供する。近年の視覚言語モデル(VLM)の進展により、コード生成タスクとして問題を定式化し、大規模な事前学習を活用することで、高品質なSVG生成が可能となった。VLMは、グローバルな意味論と細かな視覚的パターンの両方を捉えつつ、視覚、自然言語、コードの領域間で知識を転移できるため、このタスクに特に適している。しかし、既存のVLMアプローチは、トレーニング中にレンダリングされた画像を観察しないため、忠実で効率的なSVGを生成するのに苦戦することが多い。自己回帰的なSVGコード生成のための微分可能なレンダリングはまだ利用できないが、レンダリングされた出力を元の入力と比較することで、強化学習(RL)に適した評価フィードバックを得ることができる。本論文では、レンダリングフィードバックからの強化学習(RLRF)を導入し、レンダリングされたSVG出力からのフィードバックを活用して、自己回帰的なVLMにおけるSVG生成を強化する。入力画像が与えられると、モデルはSVGのロールアウトを生成し、それをレンダリングして元の画像と比較し、報酬を計算する。この視覚的忠実度フィードバックにより、モデルはより正確で効率的、かつ意味的に一貫したSVGを生成するよう導かれる。RLRFは、教師ありファインチューニングを大幅に上回り、一般的な失敗モードに対処し、強力な構造理解と一般化を伴った精密で高品質なSVG生成を実現する。
English
Scalable Vector Graphics (SVG) offer a powerful format for representing visual designs as interpretable code. Recent advances in vision-language models (VLMs) have enabled high-quality SVG generation by framing the problem as a code generation task and leveraging large-scale pretraining. VLMs are particularly suitable for this task as they capture both global semantics and fine-grained visual patterns, while transferring knowledge across vision, natural language, and code domains. However, existing VLM approaches often struggle to produce faithful and efficient SVGs because they never observe the rendered images during training. Although differentiable rendering for autoregressive SVG code generation remains unavailable, rendered outputs can still be compared to original inputs, enabling evaluative feedback suitable for reinforcement learning (RL). We introduce RLRF(Reinforcement Learning from Rendering Feedback), an RL method that enhances SVG generation in autoregressive VLMs by leveraging feedback from rendered SVG outputs. Given an input image, the model generates SVG roll-outs that are rendered and compared to the original image to compute a reward. This visual fidelity feedback guides the model toward producing more accurate, efficient, and semantically coherent SVGs. RLRF significantly outperforms supervised fine-tuning, addressing common failure modes and enabling precise, high-quality SVG generation with strong structural understanding and generalization.

Summary

AI-Generated Summary

PDF113May 28, 2025