DreamReward: 人間の選好を考慮したテキストから3D生成
DreamReward: Text-to-3D Generation with Human Preference
March 21, 2024
著者: Junliang Ye, Fangfu Liu, Qixiu Li, Zhengyi Wang, Yikai Wang, Xinzhou Wang, Yueqi Duan, Jun Zhu
cs.AI
要旨
テキストプロンプトからの3Dコンテンツ生成は、最近目覚ましい成功を収めています。
しかし、現在のテキストから3Dへの手法では、人間の好みにうまく合致しない3D結果を生成することがしばしばあります。
本論文では、人間の選好フィードバックからテキストから3Dへのモデルを学習し改善するための包括的なフレームワーク、DreamRewardを提案します。
まず、評価とランキングを含む体系的なアノテーションパイプラインに基づいて25,000件の専門家による比較データを収集します。
次に、人間の選好を効果的にエンコードする初の汎用テキストから3Dへの人間選好報酬モデル、Reward3Dを構築します。
3D報酬モデルを基盤として、理論的分析を行い、再定義されたスコアラーを用いてマルチビューディフュージョンモデルを最適化する直接チューニングアルゴリズム、Reward3Dフィードバック学習(DreamFL)を提示します。
理論的証明と広範な実験比較に基づき、私たちのDreamRewardは、人間の意図とのプロンプト整合性が大幅に向上した、高忠実度で3D整合性のある結果を生成することに成功しました。
私たちの結果は、人間のフィードバックから学習することでテキストから3Dへのモデルを改善する大きな可能性を示しています。
English
3D content creation from text prompts has shown remarkable success recently.
However, current text-to-3D methods often generate 3D results that do not align
well with human preferences. In this paper, we present a comprehensive
framework, coined DreamReward, to learn and improve text-to-3D models from
human preference feedback. To begin with, we collect 25k expert comparisons
based on a systematic annotation pipeline including rating and ranking. Then,
we build Reward3D -- the first general-purpose text-to-3D human preference
reward model to effectively encode human preferences. Building upon the 3D
reward model, we finally perform theoretical analysis and present the Reward3D
Feedback Learning (DreamFL), a direct tuning algorithm to optimize the
multi-view diffusion models with a redefined scorer. Grounded by theoretical
proof and extensive experiment comparisons, our DreamReward successfully
generates high-fidelity and 3D consistent results with significant boosts in
prompt alignment with human intention. Our results demonstrate the great
potential for learning from human feedback to improve text-to-3D models.Summary
AI-Generated Summary