ChatPaper.aiChatPaper

DreamReward: Tekst-naar-3D-generatie met menselijke voorkeur

DreamReward: Text-to-3D Generation with Human Preference

March 21, 2024
Auteurs: Junliang Ye, Fangfu Liu, Qixiu Li, Zhengyi Wang, Yikai Wang, Xinzhou Wang, Yueqi Duan, Jun Zhu
cs.AI

Samenvatting

Het creëren van 3D-inhoud op basis van tekstprompts heeft recentelijk opmerkelijke successen geboekt. Huidige tekst-naar-3D-methoden genereren echter vaak 3D-resultaten die niet goed aansluiten bij menselijke voorkeuren. In dit artikel presenteren we een uitgebreid framework, genaamd DreamReward, om tekst-naar-3D-modellen te leren en te verbeteren op basis van feedback over menselijke voorkeuren. Om te beginnen verzamelen we 25k expertvergelijkingen op basis van een systematische annotatiepijplijn die beoordeling en rangschikking omvat. Vervolgens bouwen we Reward3D -- het eerste algemene tekst-naar-3D-model voor menselijke voorkeuren dat effectief menselijke voorkeuren kan coderen. Gebaseerd op het 3D- beloningsmodel, voeren we ten slotte een theoretische analyse uit en presenteren we Reward3D Feedback Learning (DreamFL), een direct afstimalgoritme om de multi-view diffusiemodellen te optimaliseren met een herziene scorer. Gestaafd door theoretisch bewijs en uitgebreide experimentele vergelijkingen, genereert onze DreamReward met succes hoogwaardige en 3D-consistente resultaten met een aanzienlijke verbetering in promptafstemming met menselijke intentie. Onze resultaten tonen het grote potentieel aan van leren op basis van menselijke feedback om tekst-naar-3D-modellen te verbeteren.
English
3D content creation from text prompts has shown remarkable success recently. However, current text-to-3D methods often generate 3D results that do not align well with human preferences. In this paper, we present a comprehensive framework, coined DreamReward, to learn and improve text-to-3D models from human preference feedback. To begin with, we collect 25k expert comparisons based on a systematic annotation pipeline including rating and ranking. Then, we build Reward3D -- the first general-purpose text-to-3D human preference reward model to effectively encode human preferences. Building upon the 3D reward model, we finally perform theoretical analysis and present the Reward3D Feedback Learning (DreamFL), a direct tuning algorithm to optimize the multi-view diffusion models with a redefined scorer. Grounded by theoretical proof and extensive experiment comparisons, our DreamReward successfully generates high-fidelity and 3D consistent results with significant boosts in prompt alignment with human intention. Our results demonstrate the great potential for learning from human feedback to improve text-to-3D models.
PDF372February 8, 2026