DreamReward : Génération de texte en 3D avec préférences humaines

papers.abstract

La création de contenu 3D à partir de prompts textuels a récemment connu un succès remarquable. Cependant, les méthodes actuelles de génération de texte-à-3D produisent souvent des résultats 3D qui ne correspondent pas bien aux préférences humaines. Dans cet article, nous présentons un cadre complet, baptisé DreamReward, pour apprendre et améliorer les modèles texte-à-3D à partir de retours d'expérience humaine. Pour commencer, nous collectons 25 000 comparaisons d'experts basées sur un pipeline d'annotation systématique incluant des évaluations et des classements. Ensuite, nous construisons Reward3D — le premier modèle de récompense généraliste pour le texte-à-3D qui encode efficacement les préférences humaines. En nous appuyant sur ce modèle de récompense 3D, nous effectuons une analyse théorique et présentons le Reward3D Feedback Learning (DreamFL), un algorithme de réglage direct pour optimiser les modèles de diffusion multi-vues avec un système de notation redéfini. Soutenu par des preuves théoriques et des comparaisons expérimentales approfondies, notre DreamReward génère avec succès des résultats haute fidélité et cohérents en 3D, avec une amélioration significative de l'alignement des prompts avec l'intention humaine. Nos résultats démontrent le grand potentiel de l'apprentissage à partir des retours humains pour améliorer les modèles texte-à-3D.

English

3D content creation from text prompts has shown remarkable success recently. However, current text-to-3D methods often generate 3D results that do not align well with human preferences. In this paper, we present a comprehensive framework, coined DreamReward, to learn and improve text-to-3D models from human preference feedback. To begin with, we collect 25k expert comparisons based on a systematic annotation pipeline including rating and ranking. Then, we build Reward3D -- the first general-purpose text-to-3D human preference reward model to effectively encode human preferences. Building upon the 3D reward model, we finally perform theoretical analysis and present the Reward3D Feedback Learning (DreamFL), a direct tuning algorithm to optimize the multi-view diffusion models with a redefined scorer. Grounded by theoretical proof and extensive experiment comparisons, our DreamReward successfully generates high-fidelity and 3D consistent results with significant boosts in prompt alignment with human intention. Our results demonstrate the great potential for learning from human feedback to improve text-to-3D models.

DreamReward : Génération de texte en 3D avec préférences humaines

DreamReward: Text-to-3D Generation with Human Preference

papers.abstract

Support