Sommes-nous prêts pour l’apprentissage par renforcement dans la génération de texte vers 3D ? Une investigation progressive
Are We Ready for RL in Text-to-3D Generation? A Progressive Investigation
December 11, 2025
papers.authors: Yiwen Tang, Zoey Guo, Kaixin Zhu, Ray Zhang, Qizhi Chen, Dongzhi Jiang, Junli Liu, Bohan Zeng, Haoming Song, Delin Qu, Tianyi Bai, Dan Xu, Wentao Zhang, Bin Zhao
cs.AI
papers.abstract
L'apprentissage par renforcement (RL), précédemment reconnu comme efficace pour les grands modèles linguistiques et multimodaux, a récemment été étendu avec succès pour améliorer la génération d'images 2D. Cependant, son application à la génération 3D reste largement inexplorée en raison de la complexité spatiale accrue des objets 3D, qui nécessitent une géométrie globalement cohérente et des textures locales à grain fin. Cela rend la génération 3D particulièrement sensible à la conception des récompenses et aux algorithmes de RL. Pour relever ces défis, nous menons la première étude systématique du RL pour la génération autoregressive texte-3D selon plusieurs dimensions. (1) Conception des récompenses : Nous évaluons les dimensions des récompenses et les choix de modèles, montrant que l'alignement sur les préférences humaines est crucial et que les modèles multimodaux généraux fournissent un signal robuste pour les attributs 3D. (2) Algorithmes de RL : Nous étudions des variantes de GRPO, soulignant l'efficacité de l'optimisation au niveau des tokens, et examinons l'augmentation des données d'entraînement et des itérations. (3) Benchmarks Texte-3D : Les benchmarks existants ne mesurant pas les capacités de raisonnement implicite des modèles de génération 3D, nous introduisons MME-3DR. (4) Paradigmes avancés de RL : Motivés par la hiérarchie naturelle de la génération 3D, nous proposons Hi-GRPO, qui optimise la génération hiérarchique globale-vers-locale via des ensembles de récompenses dédiés. Sur la base de ces insights, nous développons AR3D-R1, le premier modèle texte-3D optimisé par RL, expert du raffinement de la forme grossière à la texture. Nous espérons que cette étude offre un éclairage sur le raisonnement piloté par RL pour la génération 3D. Le code est disponible à l'adresse https://github.com/Ivan-Tang-3D/3DGen-R1.
English
Reinforcement learning (RL), earlier proven to be effective in large language and multi-modal models, has been successfully extended to enhance 2D image generation recently. However, applying RL to 3D generation remains largely unexplored due to the higher spatial complexity of 3D objects, which require globally consistent geometry and fine-grained local textures. This makes 3D generation significantly sensitive to reward designs and RL algorithms. To address these challenges, we conduct the first systematic study of RL for text-to-3D autoregressive generation across several dimensions. (1) Reward designs: We evaluate reward dimensions and model choices, showing that alignment with human preference is crucial, and that general multi-modal models provide robust signal for 3D attributes. (2) RL algorithms: We study GRPO variants, highlighting the effectiveness of token-level optimization, and further investigate the scaling of training data and iterations. (3) Text-to-3D Benchmarks: Since existing benchmarks fail to measure implicit reasoning abilities in 3D generation models, we introduce MME-3DR. (4) Advanced RL paradigms: Motivated by the natural hierarchy of 3D generation, we propose Hi-GRPO, which optimizes the global-to-local hierarchical 3D generation through dedicated reward ensembles. Based on these insights, we develop AR3D-R1, the first RL-enhanced text-to-3D model, expert from coarse shape to texture refinement. We hope this study provides insights into RL-driven reasoning for 3D generation. Code is released at https://github.com/Ivan-Tang-3D/3DGen-R1.