TraumBelohnung: Text-zu-3D-Generierung mit menschlichen Präferenzen
DreamReward: Text-to-3D Generation with Human Preference
March 21, 2024
Autoren: Junliang Ye, Fangfu Liu, Qixiu Li, Zhengyi Wang, Yikai Wang, Xinzhou Wang, Yueqi Duan, Jun Zhu
cs.AI
Zusammenfassung
Die Erstellung von 3D-Inhalten aus Textvorgaben hat in letzter Zeit bemerkenswerte Erfolge gezeigt. Allerdings erzeugen aktuelle Text-zu-3D-Methoden häufig 3D-Ergebnisse, die nicht gut mit menschlichen Präferenzen übereinstimmen. In diesem Paper stellen wir ein umfassendes Rahmenwerk namens DreamReward vor, um Text-zu-3D-Modelle mithilfe von menschlichem Präferenz-Feedback zu erlernen und zu verbessern. Zunächst sammeln wir 25.000 Expertenvergleiche auf der Grundlage eines systematischen Annotations-Pipelines, einschließlich Bewertung und Ranking. Anschließend entwickeln wir Reward3D - das erste allgemeine Text-zu-3D-Modell für menschliche Präferenzbelohnungen, um menschliche Präferenzen effektiv zu kodieren. Aufbauend auf dem 3D-Belohnungsmodell führen wir schließlich theoretische Analysen durch und präsentieren das Reward3D-Feedback-Lernen (DreamFL), einen direkten Abstimmungsalgorithmus zur Optimierung der Multi-View-Diffusionsmodelle mit einem neu definierten Bewerter. Gestützt auf theoretische Beweise und umfangreiche Experimentvergleiche generiert unser DreamReward erfolgreich hochwertige und konsistente 3D-Ergebnisse mit signifikanten Verbesserungen bei der Anpassung an die menschliche Absicht. Unsere Ergebnisse zeigen das große Potenzial des Lernens aus menschlichem Feedback zur Verbesserung von Text-zu-3D-Modellen auf.
English
3D content creation from text prompts has shown remarkable success recently.
However, current text-to-3D methods often generate 3D results that do not align
well with human preferences. In this paper, we present a comprehensive
framework, coined DreamReward, to learn and improve text-to-3D models from
human preference feedback. To begin with, we collect 25k expert comparisons
based on a systematic annotation pipeline including rating and ranking. Then,
we build Reward3D -- the first general-purpose text-to-3D human preference
reward model to effectively encode human preferences. Building upon the 3D
reward model, we finally perform theoretical analysis and present the Reward3D
Feedback Learning (DreamFL), a direct tuning algorithm to optimize the
multi-view diffusion models with a redefined scorer. Grounded by theoretical
proof and extensive experiment comparisons, our DreamReward successfully
generates high-fidelity and 3D consistent results with significant boosts in
prompt alignment with human intention. Our results demonstrate the great
potential for learning from human feedback to improve text-to-3D models.Summary
AI-Generated Summary