DreamDPO : Aligner la génération de texte en 3D avec les préférences humaines via l'optimisation directe des préférences.

papers.abstract

La génération de texte en 3D automatise la création de contenu 3D à partir de descriptions textuelles, offrant un potentiel transformateur dans divers domaines. Cependant, les méthodes existantes ont souvent du mal à aligner le contenu généré avec les préférences humaines, limitant ainsi leur applicabilité et leur flexibilité. Pour remédier à ces limitations, dans cet article, nous proposons DreamDPO, un cadre basé sur l'optimisation qui intègre les préférences humaines dans le processus de génération 3D, à travers une optimisation directe des préférences. Concrètement, DreamDPO construit d'abord des exemples par paires, puis compare leur alignement avec les préférences humaines en utilisant une récompense ou de grands modèles multimodaux, et enfin optimise la représentation 3D avec une fonction de perte basée sur les préférences. En exploitant la comparaison par paires pour refléter les préférences, DreamDPO réduit la dépendance aux évaluations de qualité ponctuelles précises tout en permettant une contrôlabilité fine à travers une optimisation guidée par les préférences. Les expériences démontrent que DreamDPO atteint des résultats compétitifs, et fournit un contenu 3D de meilleure qualité et plus contrôlable par rapport aux méthodes existantes. Le code et les modèles seront mis à disposition en open source.

English

Text-to-3D generation automates 3D content creation from textual descriptions, which offers transformative potential across various fields. However, existing methods often struggle to align generated content with human preferences, limiting their applicability and flexibility. To address these limitations, in this paper, we propose DreamDPO, an optimization-based framework that integrates human preferences into the 3D generation process, through direct preference optimization. Practically, DreamDPO first constructs pairwise examples, then compare their alignment with human preferences using reward or large multimodal models, and lastly optimizes the 3D representation with a preference-driven loss function. By leveraging pairwise comparison to reflect preferences, DreamDPO reduces reliance on precise pointwise quality evaluations while enabling fine-grained controllability through preference-guided optimization. Experiments demonstrate that DreamDPO achieves competitive results, and provides higher-quality and more controllable 3D content compared to existing methods. The code and models will be open-sourced.

DreamDPO : Aligner la génération de texte en 3D avec les préférences humaines via l'optimisation directe des préférences.

DreamDPO: Aligning Text-to-3D Generation with Human Preferences via Direct Preference Optimization

papers.abstract

Support