ChatPaper.aiChatPaper

DreamReward: Geração de Texto para 3D com Preferência Humana

DreamReward: Text-to-3D Generation with Human Preference

March 21, 2024
Autores: Junliang Ye, Fangfu Liu, Qixiu Li, Zhengyi Wang, Yikai Wang, Xinzhou Wang, Yueqi Duan, Jun Zhu
cs.AI

Resumo

A criação de conteúdo 3D a partir de prompts de texto tem mostrado um sucesso notável recentemente. No entanto, os métodos atuais de texto-para-3D frequentemente geram resultados 3D que não estão bem alinhados com as preferências humanas. Neste artigo, apresentamos um framework abrangente, denominado DreamReward, para aprender e aprimorar modelos de texto-para-3D com base em feedback de preferência humana. Para começar, coletamos 25 mil comparações de especialistas com base em um pipeline de anotação sistemático que inclui avaliação e classificação. Em seguida, construímos o Reward3D — o primeiro modelo de recompensa de preferência humana de propósito geral para texto-para-3D, capaz de codificar efetivamente as preferências humanas. Com base no modelo de recompensa 3D, realizamos uma análise teórica e apresentamos o Reward3D Feedback Learning (DreamFL), um algoritmo de ajuste direto para otimizar modelos de difusão multi-visão com um avaliador redefinido. Fundamentado por provas teóricas e extensas comparações experimentais, nosso DreamReward gera com sucesso resultados de alta fidelidade e consistência 3D, com melhorias significativas no alinhamento do prompt com a intenção humana. Nossos resultados demonstram o grande potencial de aprender com o feedback humano para aprimorar modelos de texto-para-3D.
English
3D content creation from text prompts has shown remarkable success recently. However, current text-to-3D methods often generate 3D results that do not align well with human preferences. In this paper, we present a comprehensive framework, coined DreamReward, to learn and improve text-to-3D models from human preference feedback. To begin with, we collect 25k expert comparisons based on a systematic annotation pipeline including rating and ranking. Then, we build Reward3D -- the first general-purpose text-to-3D human preference reward model to effectively encode human preferences. Building upon the 3D reward model, we finally perform theoretical analysis and present the Reward3D Feedback Learning (DreamFL), a direct tuning algorithm to optimize the multi-view diffusion models with a redefined scorer. Grounded by theoretical proof and extensive experiment comparisons, our DreamReward successfully generates high-fidelity and 3D consistent results with significant boosts in prompt alignment with human intention. Our results demonstrate the great potential for learning from human feedback to improve text-to-3D models.
PDF372February 8, 2026