ChatPaper.aiChatPaper

텍스트-3D 생성에 RL을 적용할 준비가 되었는가? 점진적 탐구

Are We Ready for RL in Text-to-3D Generation? A Progressive Investigation

December 11, 2025
저자: Yiwen Tang, Zoey Guo, Kaixin Zhu, Ray Zhang, Qizhi Chen, Dongzhi Jiang, Junli Liu, Bohan Zeng, Haoming Song, Delin Qu, Tianyi Bai, Dan Xu, Wentao Zhang, Bin Zhao
cs.AI

초록

강화 학습(RL)은 대규모 언어 및 멀티모달 모델에서 효과적임이 이미 입증된 바 있으며, 최근에는 2D 이미지 생성 향상에도 성공적으로 확장 적용되었습니다. 그러나 3D 생성에 RL을 적용하는 것은 전역적으로 일관된 형상과 세밀한 지역 텍스처를 요구하는 3D 객체의 높은 공간적 복잡성으로 인해 아직 크게 탐구되지 않았습니다. 이는 3D 생성이 보상 설계와 RL 알고리즘에 상당히 민감하게 만드는 요인입니다. 이러한 과제를 해결하기 위해 우리는 여러 차원에 걸쳐 텍스트-3D 자동회귀 생성에 대한 RL의 첫 체계적인 연구를 수행합니다. (1) 보상 설계: 우리는 보상 차원과 모델 선택을 평가하며 인간 선호도와의 정합성이 중요하고, 일반적인 멀티모달 모델이 3D 속성에 대한 강력한 신호를 제공함을 보여줍니다. (2) RL 알고리즘: 우리는 GRPO 변형을 연구하여 토큰 수준 최적화의 효과를 강조하고, 훈련 데이터와 반복의 확장성을 추가로 조사합니다. (3) 텍스트-3D 벤치마크: 기존 벤치마크가 3D 생성 모델의 암묵적 추론 능력을 측정하지 못하므로 MME-3DR을 도입합니다. (4) 고급 RL 패러다임: 3D 생성의 자연스러운 계층 구조에 착안하여, 전용 보상 앙상블을 통해 전역-지역 계층적 3D 생성을 최적화하는 Hi-GRPO를 제안합니다. 이러한 통찰을 바탕으로 우리는 거친 형상부터 텍스처 정제까지 전문적인 최초의 RL 강화 텍스트-3D 모델인 AR3D-R1을 개발합니다. 본 연구가 3D 생성을 위한 RL 기반 추론에 대한 통찰을 제공하기를 바랍니다. 코드는 https://github.com/Ivan-Tang-3D/3DGen-R1에서 공개됩니다.
English
Reinforcement learning (RL), earlier proven to be effective in large language and multi-modal models, has been successfully extended to enhance 2D image generation recently. However, applying RL to 3D generation remains largely unexplored due to the higher spatial complexity of 3D objects, which require globally consistent geometry and fine-grained local textures. This makes 3D generation significantly sensitive to reward designs and RL algorithms. To address these challenges, we conduct the first systematic study of RL for text-to-3D autoregressive generation across several dimensions. (1) Reward designs: We evaluate reward dimensions and model choices, showing that alignment with human preference is crucial, and that general multi-modal models provide robust signal for 3D attributes. (2) RL algorithms: We study GRPO variants, highlighting the effectiveness of token-level optimization, and further investigate the scaling of training data and iterations. (3) Text-to-3D Benchmarks: Since existing benchmarks fail to measure implicit reasoning abilities in 3D generation models, we introduce MME-3DR. (4) Advanced RL paradigms: Motivated by the natural hierarchy of 3D generation, we propose Hi-GRPO, which optimizes the global-to-local hierarchical 3D generation through dedicated reward ensembles. Based on these insights, we develop AR3D-R1, the first RL-enhanced text-to-3D model, expert from coarse shape to texture refinement. We hope this study provides insights into RL-driven reasoning for 3D generation. Code is released at https://github.com/Ivan-Tang-3D/3DGen-R1.
PDF362December 13, 2025