DreamReward: 인간 선호도를 반영한 텍스트-3D 생성
DreamReward: Text-to-3D Generation with Human Preference
March 21, 2024
저자: Junliang Ye, Fangfu Liu, Qixiu Li, Zhengyi Wang, Yikai Wang, Xinzhou Wang, Yueqi Duan, Jun Zhu
cs.AI
초록
텍스트 프롬프트를 통한 3D 콘텐츠 생성은 최근 눈부신 성공을 거두고 있습니다.
그러나 현재의 텍스트-투-3D 방법들은 종종 인간의 선호도와 잘 맞지 않는 3D 결과물을 생성합니다.
본 논문에서는 인간의 선호도 피드백을 통해 텍스트-투-3D 모델을 학습하고 개선하기 위한 포괄적인 프레임워크인 DreamReward를 제안합니다.
먼저, 평점 및 순위 매기기를 포함한 체계적인 주석 파이프라인을 기반으로 25,000개의 전문가 비교 데이터를 수집합니다.
그런 다음, 인간의 선호도를 효과적으로 인코딩하기 위한 최초의 범용 텍스트-투-3D 인간 선호도 보상 모델인 Reward3D를 구축합니다.
3D 보상 모델을 기반으로, 이론적 분석을 수행하고 재정의된 스코어를 통해 다중 뷰 확산 모델을 최적화하는 직접 튜닝 알고리즘인 Reward3D 피드백 학습(DreamFL)을 제시합니다.
이론적 증명과 광범위한 실험 비교를 통해, 우리의 DreamReward는 인간의 의도와의 프롬프트 정렬에서 상당한 향상을 보이며 고해상도 및 3D 일관성 있는 결과물을 성공적으로 생성합니다.
우리의 결과는 인간 피드백을 통해 텍스트-투-3D 모델을 개선하는 데 있어 큰 잠재력을 보여줍니다.
English
3D content creation from text prompts has shown remarkable success recently.
However, current text-to-3D methods often generate 3D results that do not align
well with human preferences. In this paper, we present a comprehensive
framework, coined DreamReward, to learn and improve text-to-3D models from
human preference feedback. To begin with, we collect 25k expert comparisons
based on a systematic annotation pipeline including rating and ranking. Then,
we build Reward3D -- the first general-purpose text-to-3D human preference
reward model to effectively encode human preferences. Building upon the 3D
reward model, we finally perform theoretical analysis and present the Reward3D
Feedback Learning (DreamFL), a direct tuning algorithm to optimize the
multi-view diffusion models with a redefined scorer. Grounded by theoretical
proof and extensive experiment comparisons, our DreamReward successfully
generates high-fidelity and 3D consistent results with significant boosts in
prompt alignment with human intention. Our results demonstrate the great
potential for learning from human feedback to improve text-to-3D models.Summary
AI-Generated Summary