DreamReward : Génération de texte en 3D avec préférences humaines
DreamReward: Text-to-3D Generation with Human Preference
March 21, 2024
Auteurs: Junliang Ye, Fangfu Liu, Qixiu Li, Zhengyi Wang, Yikai Wang, Xinzhou Wang, Yueqi Duan, Jun Zhu
cs.AI
Résumé
La création de contenu 3D à partir de prompts textuels a récemment connu un succès remarquable. Cependant, les méthodes actuelles de génération de texte-à-3D produisent souvent des résultats 3D qui ne correspondent pas bien aux préférences humaines. Dans cet article, nous présentons un cadre complet, baptisé DreamReward, pour apprendre et améliorer les modèles texte-à-3D à partir de retours d'expérience humaine. Pour commencer, nous collectons 25 000 comparaisons d'experts basées sur un pipeline d'annotation systématique incluant des évaluations et des classements. Ensuite, nous construisons Reward3D — le premier modèle de récompense généraliste pour le texte-à-3D qui encode efficacement les préférences humaines. En nous appuyant sur ce modèle de récompense 3D, nous effectuons une analyse théorique et présentons le Reward3D Feedback Learning (DreamFL), un algorithme de réglage direct pour optimiser les modèles de diffusion multi-vues avec un système de notation redéfini. Soutenu par des preuves théoriques et des comparaisons expérimentales approfondies, notre DreamReward génère avec succès des résultats haute fidélité et cohérents en 3D, avec une amélioration significative de l'alignement des prompts avec l'intention humaine. Nos résultats démontrent le grand potentiel de l'apprentissage à partir des retours humains pour améliorer les modèles texte-à-3D.
English
3D content creation from text prompts has shown remarkable success recently.
However, current text-to-3D methods often generate 3D results that do not align
well with human preferences. In this paper, we present a comprehensive
framework, coined DreamReward, to learn and improve text-to-3D models from
human preference feedback. To begin with, we collect 25k expert comparisons
based on a systematic annotation pipeline including rating and ranking. Then,
we build Reward3D -- the first general-purpose text-to-3D human preference
reward model to effectively encode human preferences. Building upon the 3D
reward model, we finally perform theoretical analysis and present the Reward3D
Feedback Learning (DreamFL), a direct tuning algorithm to optimize the
multi-view diffusion models with a redefined scorer. Grounded by theoretical
proof and extensive experiment comparisons, our DreamReward successfully
generates high-fidelity and 3D consistent results with significant boosts in
prompt alignment with human intention. Our results demonstrate the great
potential for learning from human feedback to improve text-to-3D models.Summary
AI-Generated Summary