Siamo Pronti per l'RL nella Generazione Testo-3D? Un'Indagine Progressiva
Are We Ready for RL in Text-to-3D Generation? A Progressive Investigation
December 11, 2025
Autori: Yiwen Tang, Zoey Guo, Kaixin Zhu, Ray Zhang, Qizhi Chen, Dongzhi Jiang, Junli Liu, Bohan Zeng, Haoming Song, Delin Qu, Tianyi Bai, Dan Xu, Wentao Zhang, Bin Zhao
cs.AI
Abstract
L'apprendimento per rinforzo (RL), precedentemente dimostrato efficace per modelli linguistici di grandi dimensioni e multimodali, è stato recentemente esteso con successo per migliorare la generazione di immagini 2D. Tuttavia, l'applicazione del RL alla generazione 3D rimane in gran parte inesplorata a causa della maggiore complessità spaziale degli oggetti 3D, che richiedono una geometria globalmente coerente e trame locali a grana fine. Ciò rende la generazione 3D significativamente sensibile alla progettazione dei reward e agli algoritmi di RL. Per affrontare queste sfide, conduciamo il primo studio sistematico sul RL per la generazione autoregressiva da testo a 3D su diverse dimensioni. (1) Progettazione dei reward: Valutiamo dimensioni dei reward e scelte del modello, dimostrando che l'allineamento con le preferenze umane è cruciale e che i modelli multimodali generici forniscono un segnale robusto per gli attributi 3D. (2) Algoritmi di RL: Studiamo varianti del GRPO, evidenziando l'efficacia dell'ottimizzazione a livello di token, e investigiamo ulteriormente il scaling dei dati di addestramento e delle iterazioni. (3) Benchmark Text-to-3D: Poiché i benchmark esistenti non riescono a misurare le capacità di ragionamento implicito nei modelli di generazione 3D, introduciamo MME-3DR. (4) Paradigmi avanzati di RL: Motivati dalla gerarchia naturale della generazione 3D, proponiamo Hi-GRPO, che ottimizza la generazione 3D gerarchica dal globale al locale attraverso ensemble di reward dedicati. Sulla base di queste intuizioni, sviluppiamo AR3D-R1, il primo modello text-to-3D potenziato dal RL, esperto dalla forma approssimativa al perfezionamento della texture. Speriamo che questo studio fornisca spunti sul ragionamento guidato dal RL per la generazione 3D. Il codice è rilasciato su https://github.com/Ivan-Tang-3D/3DGen-R1.
English
Reinforcement learning (RL), earlier proven to be effective in large language and multi-modal models, has been successfully extended to enhance 2D image generation recently. However, applying RL to 3D generation remains largely unexplored due to the higher spatial complexity of 3D objects, which require globally consistent geometry and fine-grained local textures. This makes 3D generation significantly sensitive to reward designs and RL algorithms. To address these challenges, we conduct the first systematic study of RL for text-to-3D autoregressive generation across several dimensions. (1) Reward designs: We evaluate reward dimensions and model choices, showing that alignment with human preference is crucial, and that general multi-modal models provide robust signal for 3D attributes. (2) RL algorithms: We study GRPO variants, highlighting the effectiveness of token-level optimization, and further investigate the scaling of training data and iterations. (3) Text-to-3D Benchmarks: Since existing benchmarks fail to measure implicit reasoning abilities in 3D generation models, we introduce MME-3DR. (4) Advanced RL paradigms: Motivated by the natural hierarchy of 3D generation, we propose Hi-GRPO, which optimizes the global-to-local hierarchical 3D generation through dedicated reward ensembles. Based on these insights, we develop AR3D-R1, the first RL-enhanced text-to-3D model, expert from coarse shape to texture refinement. We hope this study provides insights into RL-driven reasoning for 3D generation. Code is released at https://github.com/Ivan-Tang-3D/3DGen-R1.