DreamReward: Generazione da Testo a 3D con Preferenze Umane

Abstract

La creazione di contenuti 3D a partire da prompt testuali ha recentemente dimostrato un notevole successo. Tuttavia, i metodi attuali di generazione 3D da testo spesso producono risultati che non si allineano bene con le preferenze umane. In questo articolo, presentiamo un framework completo, denominato DreamReward, per apprendere e migliorare i modelli di generazione 3D da testo basandoci sul feedback delle preferenze umane. Per iniziare, abbiamo raccolto 25k confronti esperti basati su una pipeline di annotazione sistematica che include valutazione e classificazione. Successivamente, abbiamo sviluppato Reward3D -- il primo modello di ricompensa per preferenze umane nella generazione 3D da testo, progettato per codificare efficacemente le preferenze umane. Basandoci sul modello di ricompensa 3D, abbiamo infine condotto un'analisi teorica e presentato il Reward3D Feedback Learning (DreamFL), un algoritmo di ottimizzazione diretto per migliorare i modelli di diffusione multi-vista con un sistema di punteggio ridefinito. Supportato da dimostrazioni teoriche e da ampie comparazioni sperimentali, il nostro DreamReward genera con successo risultati ad alta fedeltà e coerenti in 3D, con un significativo miglioramento nell'allineamento del prompt con l'intenzione umana. I nostri risultati dimostrano il grande potenziale dell'apprendimento basato sul feedback umano per migliorare i modelli di generazione 3D da testo.

English

3D content creation from text prompts has shown remarkable success recently. However, current text-to-3D methods often generate 3D results that do not align well with human preferences. In this paper, we present a comprehensive framework, coined DreamReward, to learn and improve text-to-3D models from human preference feedback. To begin with, we collect 25k expert comparisons based on a systematic annotation pipeline including rating and ranking. Then, we build Reward3D -- the first general-purpose text-to-3D human preference reward model to effectively encode human preferences. Building upon the 3D reward model, we finally perform theoretical analysis and present the Reward3D Feedback Learning (DreamFL), a direct tuning algorithm to optimize the multi-view diffusion models with a redefined scorer. Grounded by theoretical proof and extensive experiment comparisons, our DreamReward successfully generates high-fidelity and 3D consistent results with significant boosts in prompt alignment with human intention. Our results demonstrate the great potential for learning from human feedback to improve text-to-3D models.