ChatPaper.aiChatPaper

DreamDPO: Выравнивание генерации текста в 3D с предпочтениями человека через прямую оптимизацию предпочтений

DreamDPO: Aligning Text-to-3D Generation with Human Preferences via Direct Preference Optimization

February 5, 2025
Авторы: Zhenglin Zhou, Xiaobo Xia, Fan Ma, Hehe Fan, Yi Yang, Tat-Seng Chua
cs.AI

Аннотация

Генерация 3D из текста автоматизирует создание 3D контента на основе текстовых описаний, что предлагает трансформационный потенциал в различных областях. Однако существующие методы часто испытывают трудности с согласованием созданного контента с предпочтениями людей, что ограничивает их применимость и гибкость. Для решения этих ограничений в данной статье мы предлагаем DreamDPO, оптимизационную платформу, которая интегрирует предпочтения людей в процесс генерации 3D с помощью прямой оптимизации предпочтений. Практически DreamDPO сначала создает попарные примеры, затем сравнивает их соответствие предпочтениям людей с использованием вознаграждения или больших мультимодальных моделей, и в конечном итоге оптимизирует 3D представление с помощью функции потерь, управляемой предпочтениями. Используя попарное сравнение для отражения предпочтений, DreamDPO снижает зависимость от точных оценок качества в точке, обеспечивая тонкую управляемость через оптимизацию, управляемую предпочтениями. Эксперименты показывают, что DreamDPO достигает конкурентоспособных результатов и обеспечивает более высококачественный и управляемый 3D контент по сравнению с существующими методами. Код и модели будут опубликованы в открытом доступе.
English
Text-to-3D generation automates 3D content creation from textual descriptions, which offers transformative potential across various fields. However, existing methods often struggle to align generated content with human preferences, limiting their applicability and flexibility. To address these limitations, in this paper, we propose DreamDPO, an optimization-based framework that integrates human preferences into the 3D generation process, through direct preference optimization. Practically, DreamDPO first constructs pairwise examples, then compare their alignment with human preferences using reward or large multimodal models, and lastly optimizes the 3D representation with a preference-driven loss function. By leveraging pairwise comparison to reflect preferences, DreamDPO reduces reliance on precise pointwise quality evaluations while enabling fine-grained controllability through preference-guided optimization. Experiments demonstrate that DreamDPO achieves competitive results, and provides higher-quality and more controllable 3D content compared to existing methods. The code and models will be open-sourced.

Summary

AI-Generated Summary

PDF72February 11, 2025