DreamDPO: Alineando la Generación de Texto a 3D con las Preferencias Humanas a través de la Optimización Directa de Preferencias
DreamDPO: Aligning Text-to-3D Generation with Human Preferences via Direct Preference Optimization
February 5, 2025
Autores: Zhenglin Zhou, Xiaobo Xia, Fan Ma, Hehe Fan, Yi Yang, Tat-Seng Chua
cs.AI
Resumen
La generación de texto a 3D automatiza la creación de contenido 3D a partir de descripciones textuales, lo que ofrece un potencial transformador en varios campos. Sin embargo, los métodos existentes a menudo tienen dificultades para alinear el contenido generado con las preferencias humanas, lo que limita su aplicabilidad y flexibilidad. Para abordar estas limitaciones, en este documento proponemos DreamDPO, un marco basado en optimización que integra las preferencias humanas en el proceso de generación 3D, a través de la optimización directa de preferencias. En la práctica, DreamDPO primero construye ejemplos en pares, luego compara su alineación con las preferencias humanas utilizando recompensas o modelos multimodales grandes, y finalmente optimiza la representación 3D con una función de pérdida impulsada por preferencias. Al aprovechar la comparación en pares para reflejar preferencias, DreamDPO reduce la dependencia de evaluaciones de calidad puntuales precisas al tiempo que permite un control detallado a través de la optimización guiada por preferencias. Los experimentos demuestran que DreamDPO logra resultados competitivos y proporciona contenido 3D de mayor calidad y más controlable en comparación con los métodos existentes. El código y los modelos serán de código abierto.
English
Text-to-3D generation automates 3D content creation from textual
descriptions, which offers transformative potential across various fields.
However, existing methods often struggle to align generated content with human
preferences, limiting their applicability and flexibility. To address these
limitations, in this paper, we propose DreamDPO, an optimization-based
framework that integrates human preferences into the 3D generation process,
through direct preference optimization. Practically, DreamDPO first constructs
pairwise examples, then compare their alignment with human preferences using
reward or large multimodal models, and lastly optimizes the 3D representation
with a preference-driven loss function. By leveraging pairwise comparison to
reflect preferences, DreamDPO reduces reliance on precise pointwise quality
evaluations while enabling fine-grained controllability through
preference-guided optimization. Experiments demonstrate that DreamDPO achieves
competitive results, and provides higher-quality and more controllable 3D
content compared to existing methods. The code and models will be open-sourced.Summary
AI-Generated Summary