DreamDPO: Het afstemmen van tekst-naar-3D-generatie op menselijke voorkeuren via Directe Voorkeursoptimalisatie
DreamDPO: Aligning Text-to-3D Generation with Human Preferences via Direct Preference Optimization
February 5, 2025
Auteurs: Zhenglin Zhou, Xiaobo Xia, Fan Ma, Hehe Fan, Yi Yang, Tat-Seng Chua
cs.AI
Samenvatting
Tekst-naar-3D-generatie automatiseert de creatie van 3D-inhoud vanuit tekstuele beschrijvingen, wat transformerend potentieel biedt over verschillende vakgebieden. Echter, bestaande methoden hebben vaak moeite om gegenereerde inhoud af te stemmen op menselijke voorkeuren, waardoor hun toepasbaarheid en flexibiliteit beperkt zijn. Om deze beperkingen aan te pakken, stellen we in dit artikel DreamDPO voor, een op optimalisatie gebaseerd framework dat menselijke voorkeuren integreert in het 3D-generatieproces, via directe voorkeursoptimalisatie. In de praktijk construeert DreamDPO eerst paarvoorbeelden, vergelijkt vervolgens hun afstemming met menselijke voorkeuren met behulp van beloning of grote multimodale modellen, en optimaliseert tot slot de 3D-representatie met een voorkeursgestuurde verliesfunctie. Door gebruik te maken van paarvergelijkingen om voorkeuren weer te geven, vermindert DreamDPO de afhankelijkheid van precieze puntsgewijze kwaliteitsevaluaties, terwijl het fijnmazige controle mogelijk maakt via voorkeursgestuurde optimalisatie. Experimenten tonen aan dat DreamDPO competitieve resultaten behaalt en hogere kwaliteit en meer controleerbare 3D-inhoud biedt in vergelijking met bestaande methoden. De code en modellen zullen open-source worden gemaakt.
English
Text-to-3D generation automates 3D content creation from textual
descriptions, which offers transformative potential across various fields.
However, existing methods often struggle to align generated content with human
preferences, limiting their applicability and flexibility. To address these
limitations, in this paper, we propose DreamDPO, an optimization-based
framework that integrates human preferences into the 3D generation process,
through direct preference optimization. Practically, DreamDPO first constructs
pairwise examples, then compare their alignment with human preferences using
reward or large multimodal models, and lastly optimizes the 3D representation
with a preference-driven loss function. By leveraging pairwise comparison to
reflect preferences, DreamDPO reduces reliance on precise pointwise quality
evaluations while enabling fine-grained controllability through
preference-guided optimization. Experiments demonstrate that DreamDPO achieves
competitive results, and provides higher-quality and more controllable 3D
content compared to existing methods. The code and models will be open-sourced.Summary
AI-Generated Summary