ChatPaper.aiChatPaper

DreamReward: Генерация 3D из текста с учетом предпочтений человека

DreamReward: Text-to-3D Generation with Human Preference

March 21, 2024
Авторы: Junliang Ye, Fangfu Liu, Qixiu Li, Zhengyi Wang, Yikai Wang, Xinzhou Wang, Yueqi Duan, Jun Zhu
cs.AI

Аннотация

Создание 3D-контента по текстовым запросам недавно показало выдающиеся успехи. Однако текущие методы преобразования текста в 3D часто генерируют результаты, которые плохо соответствуют человеческим предпочтениям. В данной статье мы представляем комплексную методику, названную DreamReward, для обучения и улучшения моделей текста в 3D на основе обратной связи от человека. В начале мы собираем 25 тыс. экспертных сравнений на основе систематического аннотационного конвейера, включающего оценку и ранжирование. Затем мы создаем Reward3D - первую универсальную модель предпочтений человека для текста в 3D, способную эффективно кодировать человеческие предпочтения. Основываясь на модели награды в 3D, мы наконец проводим теоретический анализ и представляем DreamFL (Feedback Learning для Reward3D), алгоритм прямой настройки для оптимизации моделей многопросмотрового диффузионного процесса с переопределенным оценщиком. Основанный на теоретическом доказательстве и обширных сравнительных экспериментах, наш DreamReward успешно генерирует результаты высокой точности и согласованные в 3D с значительным улучшением соответствия запроса человеческому намерению. Наши результаты демонстрируют великий потенциал обучения на основе обратной связи от человека для улучшения моделей текста в 3D.
English
3D content creation from text prompts has shown remarkable success recently. However, current text-to-3D methods often generate 3D results that do not align well with human preferences. In this paper, we present a comprehensive framework, coined DreamReward, to learn and improve text-to-3D models from human preference feedback. To begin with, we collect 25k expert comparisons based on a systematic annotation pipeline including rating and ranking. Then, we build Reward3D -- the first general-purpose text-to-3D human preference reward model to effectively encode human preferences. Building upon the 3D reward model, we finally perform theoretical analysis and present the Reward3D Feedback Learning (DreamFL), a direct tuning algorithm to optimize the multi-view diffusion models with a redefined scorer. Grounded by theoretical proof and extensive experiment comparisons, our DreamReward successfully generates high-fidelity and 3D consistent results with significant boosts in prompt alignment with human intention. Our results demonstrate the great potential for learning from human feedback to improve text-to-3D models.

Summary

AI-Generated Summary

PDF382December 15, 2024