DreamDPO: Alinhando a Geração de Texto-para-3D com Preferências Humanas através da Otimização Direta de Preferências
DreamDPO: Aligning Text-to-3D Generation with Human Preferences via Direct Preference Optimization
February 5, 2025
Autores: Zhenglin Zhou, Xiaobo Xia, Fan Ma, Hehe Fan, Yi Yang, Tat-Seng Chua
cs.AI
Resumo
A geração de texto para 3D automatiza a criação de conteúdo 3D a partir de descrições textuais, o que oferece um potencial transformador em diversos campos. No entanto, os métodos existentes frequentemente enfrentam dificuldades para alinhar o conteúdo gerado com as preferências humanas, limitando sua aplicabilidade e flexibilidade. Para lidar com essas limitações, neste artigo, propomos o DreamDPO, um framework baseado em otimização que integra as preferências humanas no processo de geração 3D, por meio da otimização direta de preferências. Na prática, o DreamDPO primeiro constrói exemplos em pares, em seguida compara seu alinhamento com as preferências humanas usando recompensas ou modelos multimodais extensos e, por fim, otimiza a representação 3D com uma função de perda orientada por preferências. Ao aproveitar a comparação em pares para refletir preferências, o DreamDPO reduz a dependência de avaliações de qualidade pontuais precisas, ao mesmo tempo que possibilita uma controlabilidade refinada por meio da otimização orientada por preferências. Experimentos demonstram que o DreamDPO alcança resultados competitivos e fornece conteúdo 3D de maior qualidade e mais controlável em comparação com os métodos existentes. O código e os modelos serão disponibilizados em código aberto.
English
Text-to-3D generation automates 3D content creation from textual
descriptions, which offers transformative potential across various fields.
However, existing methods often struggle to align generated content with human
preferences, limiting their applicability and flexibility. To address these
limitations, in this paper, we propose DreamDPO, an optimization-based
framework that integrates human preferences into the 3D generation process,
through direct preference optimization. Practically, DreamDPO first constructs
pairwise examples, then compare their alignment with human preferences using
reward or large multimodal models, and lastly optimizes the 3D representation
with a preference-driven loss function. By leveraging pairwise comparison to
reflect preferences, DreamDPO reduces reliance on precise pointwise quality
evaluations while enabling fine-grained controllability through
preference-guided optimization. Experiments demonstrate that DreamDPO achieves
competitive results, and provides higher-quality and more controllable 3D
content compared to existing methods. The code and models will be open-sourced.