ChatPaper.aiChatPaper

¿Estamos Preparados para el Aprendizaje por Refuerzo en la Generación de Texto a 3D? Una Investigación Progresiva

Are We Ready for RL in Text-to-3D Generation? A Progressive Investigation

December 11, 2025
Autores: Yiwen Tang, Zoey Guo, Kaixin Zhu, Ray Zhang, Qizhi Chen, Dongzhi Jiang, Junli Liu, Bohan Zeng, Haoming Song, Delin Qu, Tianyi Bai, Dan Xu, Wentao Zhang, Bin Zhao
cs.AI

Resumen

El aprendizaje por refuerzo (RL), previamente demostrado como efectivo en modelos de lenguaje extenso y multimodales, ha sido extendido exitosamente recientemente para mejorar la generación de imágenes 2D. Sin embargo, la aplicación de RL a la generación 3D permanece en gran medida inexplorada debido a la mayor complejidad espacial de los objetos 3D, los cuales requieren una geometría globalmente consistente y texturas locales de grano fino. Esto hace que la generación 3D sea significativamente sensible al diseño de recompensas y a los algoritmos de RL. Para abordar estos desafíos, realizamos el primer estudio sistemático de RL para la generación autoregresiva de texto a 3D en varias dimensiones. (1) Diseños de recompensa: Evaluamos dimensiones de recompensa y opciones de modelos, demostrando que la alineación con la preferencia humana es crucial, y que los modelos multimodales generales proporcionan una señal robusta para los atributos 3D. (2) Algoritmos de RL: Estudiamos variantes de GRPO, destacando la efectividad de la optimización a nivel de token, e investigamos además la escalabilidad de los datos de entrenamiento y las iteraciones. (3) Puntos de referencia para texto a 3D: Dado que los puntos de referencia existentes no logran medir las capacidades de razonamiento implícito en los modelos de generación 3D, introducimos MME-3DR. (4) Paradigmas avanzados de RL: Motivados por la jerarquía natural de la generación 3D, proponemos Hi-GRPO, que optimiza la generación 3D jerárquica de global a local mediante conjuntos de recompensas dedicados. Basándonos en estas ideas, desarrollamos AR3D-R1, el primer modelo de texto a 3D mejorado con RL, experto desde la forma gruesa hasta el refinamiento de texturas. Esperamos que este estudio proporcione información valiosa sobre el razonamiento impulsado por RL para la generación 3D. El código se publica en https://github.com/Ivan-Tang-3D/3DGen-R1.
English
Reinforcement learning (RL), earlier proven to be effective in large language and multi-modal models, has been successfully extended to enhance 2D image generation recently. However, applying RL to 3D generation remains largely unexplored due to the higher spatial complexity of 3D objects, which require globally consistent geometry and fine-grained local textures. This makes 3D generation significantly sensitive to reward designs and RL algorithms. To address these challenges, we conduct the first systematic study of RL for text-to-3D autoregressive generation across several dimensions. (1) Reward designs: We evaluate reward dimensions and model choices, showing that alignment with human preference is crucial, and that general multi-modal models provide robust signal for 3D attributes. (2) RL algorithms: We study GRPO variants, highlighting the effectiveness of token-level optimization, and further investigate the scaling of training data and iterations. (3) Text-to-3D Benchmarks: Since existing benchmarks fail to measure implicit reasoning abilities in 3D generation models, we introduce MME-3DR. (4) Advanced RL paradigms: Motivated by the natural hierarchy of 3D generation, we propose Hi-GRPO, which optimizes the global-to-local hierarchical 3D generation through dedicated reward ensembles. Based on these insights, we develop AR3D-R1, the first RL-enhanced text-to-3D model, expert from coarse shape to texture refinement. We hope this study provides insights into RL-driven reasoning for 3D generation. Code is released at https://github.com/Ivan-Tang-3D/3DGen-R1.
PDF362December 13, 2025