DreamReward: Generación de Texto a 3D con Preferencias Humanas

Resumen

La creación de contenido 3D a partir de indicaciones de texto ha mostrado un éxito notable recientemente. Sin embargo, los métodos actuales de texto a 3D suelen generar resultados que no se alinean bien con las preferencias humanas. En este artículo, presentamos un marco integral, denominado DreamReward, para aprender y mejorar los modelos de texto a 3D a partir de comentarios de preferencia humana. Para comenzar, recopilamos 25k comparaciones de expertos basadas en una canalización de anotación sistemática que incluye calificación y clasificación. Luego, construimos Reward3D, el primer modelo de recompensa de preferencia humana de texto a 3D de propósito general, para codificar eficazmente las preferencias humanas. Basándonos en el modelo de recompensa 3D, finalmente realizamos un análisis teórico y presentamos el Aprendizaje por Retroalimentación de Reward3D (DreamFL), un algoritmo de ajuste directo para optimizar los modelos de difusión de múltiples vistas con un evaluador redefinido. Respaldado por pruebas teóricas y extensas comparaciones experimentales, nuestro DreamReward genera con éxito resultados de alta fidelidad y consistencia 3D con mejoras significativas en la alineación de las indicaciones con la intención humana. Nuestros resultados demuestran el gran potencial de aprender de los comentarios humanos para mejorar los modelos de texto a 3D.

English

3D content creation from text prompts has shown remarkable success recently. However, current text-to-3D methods often generate 3D results that do not align well with human preferences. In this paper, we present a comprehensive framework, coined DreamReward, to learn and improve text-to-3D models from human preference feedback. To begin with, we collect 25k expert comparisons based on a systematic annotation pipeline including rating and ranking. Then, we build Reward3D -- the first general-purpose text-to-3D human preference reward model to effectively encode human preferences. Building upon the 3D reward model, we finally perform theoretical analysis and present the Reward3D Feedback Learning (DreamFL), a direct tuning algorithm to optimize the multi-view diffusion models with a redefined scorer. Grounded by theoretical proof and extensive experiment comparisons, our DreamReward successfully generates high-fidelity and 3D consistent results with significant boosts in prompt alignment with human intention. Our results demonstrate the great potential for learning from human feedback to improve text-to-3D models.

DreamReward: Generación de Texto a 3D con Preferencias Humanas

DreamReward: Text-to-3D Generation with Human Preference

Resumen

Support