DreamReward: Generación de Texto a 3D con Preferencias Humanas
DreamReward: Text-to-3D Generation with Human Preference
March 21, 2024
Autores: Junliang Ye, Fangfu Liu, Qixiu Li, Zhengyi Wang, Yikai Wang, Xinzhou Wang, Yueqi Duan, Jun Zhu
cs.AI
Resumen
La creación de contenido 3D a partir de indicaciones de texto ha mostrado un éxito notable recientemente. Sin embargo, los métodos actuales de texto a 3D suelen generar resultados que no se alinean bien con las preferencias humanas. En este artículo, presentamos un marco integral, denominado DreamReward, para aprender y mejorar los modelos de texto a 3D a partir de comentarios de preferencia humana. Para comenzar, recopilamos 25k comparaciones de expertos basadas en una canalización de anotación sistemática que incluye calificación y clasificación. Luego, construimos Reward3D, el primer modelo de recompensa de preferencia humana de texto a 3D de propósito general, para codificar eficazmente las preferencias humanas. Basándonos en el modelo de recompensa 3D, finalmente realizamos un análisis teórico y presentamos el Aprendizaje por Retroalimentación de Reward3D (DreamFL), un algoritmo de ajuste directo para optimizar los modelos de difusión de múltiples vistas con un evaluador redefinido. Respaldado por pruebas teóricas y extensas comparaciones experimentales, nuestro DreamReward genera con éxito resultados de alta fidelidad y consistencia 3D con mejoras significativas en la alineación de las indicaciones con la intención humana. Nuestros resultados demuestran el gran potencial de aprender de los comentarios humanos para mejorar los modelos de texto a 3D.
English
3D content creation from text prompts has shown remarkable success recently.
However, current text-to-3D methods often generate 3D results that do not align
well with human preferences. In this paper, we present a comprehensive
framework, coined DreamReward, to learn and improve text-to-3D models from
human preference feedback. To begin with, we collect 25k expert comparisons
based on a systematic annotation pipeline including rating and ranking. Then,
we build Reward3D -- the first general-purpose text-to-3D human preference
reward model to effectively encode human preferences. Building upon the 3D
reward model, we finally perform theoretical analysis and present the Reward3D
Feedback Learning (DreamFL), a direct tuning algorithm to optimize the
multi-view diffusion models with a redefined scorer. Grounded by theoretical
proof and extensive experiment comparisons, our DreamReward successfully
generates high-fidelity and 3D consistent results with significant boosts in
prompt alignment with human intention. Our results demonstrate the great
potential for learning from human feedback to improve text-to-3D models.Summary
AI-Generated Summary