ChatPaper.aiChatPaper

テキストから3D生成への強化学習適用は準備が整っているか?段階的な検証

Are We Ready for RL in Text-to-3D Generation? A Progressive Investigation

December 11, 2025
著者: Yiwen Tang, Zoey Guo, Kaixin Zhu, Ray Zhang, Qizhi Chen, Dongzhi Jiang, Junli Liu, Bohan Zeng, Haoming Song, Delin Qu, Tianyi Bai, Dan Xu, Wentao Zhang, Bin Zhao
cs.AI

要旨

強化学習(RL)は、大規模言語モデルやマルチモーダルモデルにおいて有効性が実証されてきたが、最近では2D画像生成の強化にも成功裏に拡張されている。しかし、RLを3D生成に応用する試みは、3Dオブジェクトの高い空間的複雑さ(大域的に一貫したジオメトリと細粒度の局所テクスチャを必要とするため)から、ほとんど未開拓の領域である。これにより、3D生成は報酬設計とRLアルゴリズムに極めて敏感となる。これらの課題に対処するため、我々はテキストから3Dへの自己回帰生成におけるRLについて、複数の次元で初めて体系的な研究を実施した。(1) 報酬設計:報酬の次元とモデル選択を評価し、人間の嗜好との整合性が重要であること、および汎用マルチモーダルモデルが3D属性に対して頑健な信号を提供することを示した。(2) RLアルゴリズム:GRPOの変種を検討し、トークンレベル最適化の有効性を明らかにするとともに、訓練データ量と反復回数のスケーリング効果を調査した。(3) テキスト-to-3Dベンチマーク:既存のベンチマークが3D生成モデルの暗黙的推論能力を測定できないため、MME-3DRを新たに導入した。(4) 高度なRLパラダイム:3D生成の自然な階層性に着想を得て、専用の報酬アンサンブルによる大域から局所への階層的3D生成を最適化するHi-GRPOを提案した。これらの知見に基づき、粗い形状からテクスチャ洗練までを専門とする、初のRL強化型テキスト-to-3DモデルAR3D-R1を開発した。本研究が3D生成におけるRL駆動型推論への知見を提供することを期待する。コードはhttps://github.com/Ivan-Tang-3D/3DGen-R1で公開されている。
English
Reinforcement learning (RL), earlier proven to be effective in large language and multi-modal models, has been successfully extended to enhance 2D image generation recently. However, applying RL to 3D generation remains largely unexplored due to the higher spatial complexity of 3D objects, which require globally consistent geometry and fine-grained local textures. This makes 3D generation significantly sensitive to reward designs and RL algorithms. To address these challenges, we conduct the first systematic study of RL for text-to-3D autoregressive generation across several dimensions. (1) Reward designs: We evaluate reward dimensions and model choices, showing that alignment with human preference is crucial, and that general multi-modal models provide robust signal for 3D attributes. (2) RL algorithms: We study GRPO variants, highlighting the effectiveness of token-level optimization, and further investigate the scaling of training data and iterations. (3) Text-to-3D Benchmarks: Since existing benchmarks fail to measure implicit reasoning abilities in 3D generation models, we introduce MME-3DR. (4) Advanced RL paradigms: Motivated by the natural hierarchy of 3D generation, we propose Hi-GRPO, which optimizes the global-to-local hierarchical 3D generation through dedicated reward ensembles. Based on these insights, we develop AR3D-R1, the first RL-enhanced text-to-3D model, expert from coarse shape to texture refinement. We hope this study provides insights into RL-driven reasoning for 3D generation. Code is released at https://github.com/Ivan-Tang-3D/3DGen-R1.
PDF362December 13, 2025