LucidDreamer : Vers une génération texte-3D haute fidélité via l'appariement de scores d'intervalles
LucidDreamer: Towards High-Fidelity Text-to-3D Generation via Interval Score Matching
November 19, 2023
Auteurs: Yixun Liang, Xin Yang, Jiantao Lin, Haodong Li, Xiaogang Xu, Yingcong Chen
cs.AI
Résumé
Les récentes avancées dans la génération de texte-à-3D marquent une étape importante dans les modèles génératifs, ouvrant de nouvelles possibilités pour créer des assets 3D imaginatifs dans divers scénarios du monde réel. Bien que les progrès récents en génération de texte-à-3D aient montré des résultats prometteurs, ils peinent souvent à produire des modèles 3D détaillés et de haute qualité. Ce problème est particulièrement prégnant, car de nombreuses méthodes s'appuient sur le Score Distillation Sampling (SDS). Cet article met en lumière une lacune notable du SDS : il génère des directions de mise à jour incohérentes et de faible qualité pour le modèle 3D, entraînant un effet de sur-lissage. Pour remédier à cela, nous proposons une nouvelle approche appelée Interval Score Matching (ISM). L'ISM utilise des trajectoires de diffusion déterministes et met en œuvre un appariement de scores basé sur des intervalles pour contrer le sur-lissage. Par ailleurs, nous intégrons le 3D Gaussian Splatting dans notre pipeline de génération de texte-à-3D. Des expériences approfondies montrent que notre modèle surpasse largement l'état de l'art en termes de qualité et d'efficacité d'entraînement.
English
The recent advancements in text-to-3D generation mark a significant milestone
in generative models, unlocking new possibilities for creating imaginative 3D
assets across various real-world scenarios. While recent advancements in
text-to-3D generation have shown promise, they often fall short in rendering
detailed and high-quality 3D models. This problem is especially prevalent as
many methods base themselves on Score Distillation Sampling (SDS). This paper
identifies a notable deficiency in SDS, that it brings inconsistent and
low-quality updating direction for the 3D model, causing the over-smoothing
effect. To address this, we propose a novel approach called Interval Score
Matching (ISM). ISM employs deterministic diffusing trajectories and utilizes
interval-based score matching to counteract over-smoothing. Furthermore, we
incorporate 3D Gaussian Splatting into our text-to-3D generation pipeline.
Extensive experiments show that our model largely outperforms the
state-of-the-art in quality and training efficiency.