ChatPaper.aiChatPaper

Sind wir bereit für Reinforcement Learning in der Text-zu-3D-Generierung? Eine progressive Untersuchung

Are We Ready for RL in Text-to-3D Generation? A Progressive Investigation

December 11, 2025
papers.authors: Yiwen Tang, Zoey Guo, Kaixin Zhu, Ray Zhang, Qizhi Chen, Dongzhi Jiang, Junli Liu, Bohan Zeng, Haoming Song, Delin Qu, Tianyi Bai, Dan Xu, Wentao Zhang, Bin Zhao
cs.AI

papers.abstract

Reinforcement Learning (RL), das bereits zuvor als wirksam für große Sprach- und multimodale Modelle nachgewiesen wurde, wurde kürzlich erfolgreich zur Verbesserung der 2D-Bildgenerierung erweitert. Die Anwendung von RL auf die 3D-Generierung ist jedoch weitgehend unerforscht, was an der höheren räumlichen Komplexität von 3D-Objekten liegt, die global konsistente Geometrie und feinkörnige lokale Texturen erfordern. Dies macht die 3D-Generierung besonders anfällig für Reward-Designs und RL-Algorithmen. Um diese Herausforderungen zu bewältigen, führen wir die erste systematische Untersuchung von RL für die text-zu-3D autoregressive Generierung in mehreren Dimensionen durch. (1) Reward-Designs: Wir evaluieren Reward-Dimensionen und Modellauswahl und zeigen, dass die Übereinstimmung mit menschlichen Präferenzen entscheidend ist und dass allgemeine multimodale Modelle ein robustes Signal für 3D-Attribute liefern. (2) RL-Algorithmen: Wir untersuchen GRPO-Varianten, die Wirksamkeit der Optimierung auf Token-Ebene und analysieren zudem die Skalierung von Trainingsdaten und Iterationen. (3) Text-zu-3D-Benchmarks: Da bestehende Benchmarks die impliziten Reasoning-Fähigkeiten von 3D-Generierungsmodellen nicht erfassen, führen wir MME-3DR ein. (4) Erweiterte RL-Paradigmen: Angeregt durch die natürliche Hierarchie der 3D-Generierung schlagen wir Hi-GRPO vor, das die global-lokal hierarchische 3D-Generierung durch spezielle Reward-Ensembles optimiert. Aufbauend auf diesen Erkenntnissen entwickeln wir AR3D-R1, das erste RL-verbesserte Text-zu-3D-Modell, das von groben Formen bis zur Texturverfeinerung expertenhaft arbeitet. Wir hoffen, dass diese Studie Einblicke in das RL-gesteuerte Reasoning für die 3D-Generierung bietet. Der Code ist unter https://github.com/Ivan-Tang-3D/3DGen-R1 verfügbar.
English
Reinforcement learning (RL), earlier proven to be effective in large language and multi-modal models, has been successfully extended to enhance 2D image generation recently. However, applying RL to 3D generation remains largely unexplored due to the higher spatial complexity of 3D objects, which require globally consistent geometry and fine-grained local textures. This makes 3D generation significantly sensitive to reward designs and RL algorithms. To address these challenges, we conduct the first systematic study of RL for text-to-3D autoregressive generation across several dimensions. (1) Reward designs: We evaluate reward dimensions and model choices, showing that alignment with human preference is crucial, and that general multi-modal models provide robust signal for 3D attributes. (2) RL algorithms: We study GRPO variants, highlighting the effectiveness of token-level optimization, and further investigate the scaling of training data and iterations. (3) Text-to-3D Benchmarks: Since existing benchmarks fail to measure implicit reasoning abilities in 3D generation models, we introduce MME-3DR. (4) Advanced RL paradigms: Motivated by the natural hierarchy of 3D generation, we propose Hi-GRPO, which optimizes the global-to-local hierarchical 3D generation through dedicated reward ensembles. Based on these insights, we develop AR3D-R1, the first RL-enhanced text-to-3D model, expert from coarse shape to texture refinement. We hope this study provides insights into RL-driven reasoning for 3D generation. Code is released at https://github.com/Ivan-Tang-3D/3DGen-R1.
PDF362December 13, 2025