DreamDPO: Ausrichtung der Text-zu-3D-Generierung mit menschlichen Präferenzen durch direkte Präferenzoptimierung
DreamDPO: Aligning Text-to-3D Generation with Human Preferences via Direct Preference Optimization
February 5, 2025
papers.authors: Zhenglin Zhou, Xiaobo Xia, Fan Ma, Hehe Fan, Yi Yang, Tat-Seng Chua
cs.AI
papers.abstract
Die Text-zu-3D-Generierung automatisiert die Erstellung von 3D-Inhalten aus textuellen Beschreibungen, was ein transformatives Potenzial in verschiedenen Bereichen bietet. Allerdings haben bestehende Methoden oft Schwierigkeiten, generierte Inhalte mit menschlichen Präferenzen in Einklang zu bringen, was ihre Anwendbarkeit und Flexibilität einschränkt. Um diese Einschränkungen zu überwinden, schlagen wir in diesem Paper DreamDPO vor, ein optimierungsbasiertes Framework, das menschliche Präferenzen in den 3D-Generierungsprozess integriert, durch direkte Präferenzoptimierung. Praktisch betrachtet konstruiert DreamDPO zunächst paarweise Beispiele, vergleicht dann ihre Ausrichtung mit menschlichen Präferenzen mithilfe von Belohnungen oder großen multimodalen Modellen und optimiert schließlich die 3D-Repräsentation mit einer präferenzgesteuerten Verlustfunktion. Durch die Nutzung von paarweisen Vergleichen zur Abbildung von Präferenzen reduziert DreamDPO die Abhängigkeit von präzisen punktweisen Qualitätsbewertungen und ermöglicht eine fein abgestimmte Steuerbarkeit durch präferenzgesteuerte Optimierung. Experimente zeigen, dass DreamDPO wettbewerbsfähige Ergebnisse erzielt und im Vergleich zu bestehenden Methoden 3D-Inhalte von höherer Qualität und besserer Steuerbarkeit liefert. Der Code und die Modelle werden Open Source zur Verfügung gestellt.
English
Text-to-3D generation automates 3D content creation from textual
descriptions, which offers transformative potential across various fields.
However, existing methods often struggle to align generated content with human
preferences, limiting their applicability and flexibility. To address these
limitations, in this paper, we propose DreamDPO, an optimization-based
framework that integrates human preferences into the 3D generation process,
through direct preference optimization. Practically, DreamDPO first constructs
pairwise examples, then compare their alignment with human preferences using
reward or large multimodal models, and lastly optimizes the 3D representation
with a preference-driven loss function. By leveraging pairwise comparison to
reflect preferences, DreamDPO reduces reliance on precise pointwise quality
evaluations while enabling fine-grained controllability through
preference-guided optimization. Experiments demonstrate that DreamDPO achieves
competitive results, and provides higher-quality and more controllable 3D
content compared to existing methods. The code and models will be open-sourced.