DreamDPO : Aligner la génération de texte en 3D avec les préférences humaines via l'optimisation directe des préférences.
DreamDPO: Aligning Text-to-3D Generation with Human Preferences via Direct Preference Optimization
February 5, 2025
Auteurs: Zhenglin Zhou, Xiaobo Xia, Fan Ma, Hehe Fan, Yi Yang, Tat-Seng Chua
cs.AI
Résumé
La génération de texte en 3D automatise la création de contenu 3D à partir de descriptions textuelles, offrant un potentiel transformateur dans divers domaines. Cependant, les méthodes existantes ont souvent du mal à aligner le contenu généré avec les préférences humaines, limitant ainsi leur applicabilité et leur flexibilité. Pour remédier à ces limitations, dans cet article, nous proposons DreamDPO, un cadre basé sur l'optimisation qui intègre les préférences humaines dans le processus de génération 3D, à travers une optimisation directe des préférences. Concrètement, DreamDPO construit d'abord des exemples par paires, puis compare leur alignement avec les préférences humaines en utilisant une récompense ou de grands modèles multimodaux, et enfin optimise la représentation 3D avec une fonction de perte basée sur les préférences. En exploitant la comparaison par paires pour refléter les préférences, DreamDPO réduit la dépendance aux évaluations de qualité ponctuelles précises tout en permettant une contrôlabilité fine à travers une optimisation guidée par les préférences. Les expériences démontrent que DreamDPO atteint des résultats compétitifs, et fournit un contenu 3D de meilleure qualité et plus contrôlable par rapport aux méthodes existantes. Le code et les modèles seront mis à disposition en open source.
English
Text-to-3D generation automates 3D content creation from textual
descriptions, which offers transformative potential across various fields.
However, existing methods often struggle to align generated content with human
preferences, limiting their applicability and flexibility. To address these
limitations, in this paper, we propose DreamDPO, an optimization-based
framework that integrates human preferences into the 3D generation process,
through direct preference optimization. Practically, DreamDPO first constructs
pairwise examples, then compare their alignment with human preferences using
reward or large multimodal models, and lastly optimizes the 3D representation
with a preference-driven loss function. By leveraging pairwise comparison to
reflect preferences, DreamDPO reduces reliance on precise pointwise quality
evaluations while enabling fine-grained controllability through
preference-guided optimization. Experiments demonstrate that DreamDPO achieves
competitive results, and provides higher-quality and more controllable 3D
content compared to existing methods. The code and models will be open-sourced.Summary
AI-Generated Summary