DreamReward: Tekst-naar-3D-generatie met menselijke voorkeur
DreamReward: Text-to-3D Generation with Human Preference
March 21, 2024
Auteurs: Junliang Ye, Fangfu Liu, Qixiu Li, Zhengyi Wang, Yikai Wang, Xinzhou Wang, Yueqi Duan, Jun Zhu
cs.AI
Samenvatting
Het creëren van 3D-inhoud op basis van tekstprompts heeft recentelijk opmerkelijke successen geboekt.
Huidige tekst-naar-3D-methoden genereren echter vaak 3D-resultaten die niet goed aansluiten
bij menselijke voorkeuren. In dit artikel presenteren we een uitgebreid
framework, genaamd DreamReward, om tekst-naar-3D-modellen te leren en te verbeteren op basis van
feedback over menselijke voorkeuren. Om te beginnen verzamelen we 25k expertvergelijkingen
op basis van een systematische annotatiepijplijn die beoordeling en rangschikking omvat. Vervolgens
bouwen we Reward3D -- het eerste algemene tekst-naar-3D-model voor menselijke voorkeuren
dat effectief menselijke voorkeuren kan coderen. Gebaseerd op het 3D-
beloningsmodel, voeren we ten slotte een theoretische analyse uit en presenteren we Reward3D
Feedback Learning (DreamFL), een direct afstimalgoritme om de
multi-view diffusiemodellen te optimaliseren met een herziene scorer. Gestaafd door theoretisch
bewijs en uitgebreide experimentele vergelijkingen, genereert onze DreamReward met succes
hoogwaardige en 3D-consistente resultaten met een aanzienlijke verbetering in
promptafstemming met menselijke intentie. Onze resultaten tonen het grote
potentieel aan van leren op basis van menselijke feedback om tekst-naar-3D-modellen te verbeteren.
English
3D content creation from text prompts has shown remarkable success recently.
However, current text-to-3D methods often generate 3D results that do not align
well with human preferences. In this paper, we present a comprehensive
framework, coined DreamReward, to learn and improve text-to-3D models from
human preference feedback. To begin with, we collect 25k expert comparisons
based on a systematic annotation pipeline including rating and ranking. Then,
we build Reward3D -- the first general-purpose text-to-3D human preference
reward model to effectively encode human preferences. Building upon the 3D
reward model, we finally perform theoretical analysis and present the Reward3D
Feedback Learning (DreamFL), a direct tuning algorithm to optimize the
multi-view diffusion models with a redefined scorer. Grounded by theoretical
proof and extensive experiment comparisons, our DreamReward successfully
generates high-fidelity and 3D consistent results with significant boosts in
prompt alignment with human intention. Our results demonstrate the great
potential for learning from human feedback to improve text-to-3D models.