Repaint123 : Génération rapide et de haute qualité d'une image en 3D avec un repiquage 2D progressif et contrôlable
Repaint123: Fast and High-quality One Image to 3D Generation with Progressive Controllable 2D Repainting
December 20, 2023
Auteurs: Junwu Zhang, Zhenyu Tang, Yatian Pang, Xinhua Cheng, Peng Jin, Yida Wei, Wangbo Yu, Munan Ning, Li Yuan
cs.AI
Résumé
Les méthodes récentes de génération 3D à partir d'une seule image adoptent couramment l'échantillonnage par distillation de score (Score Distillation Sampling, SDS). Malgré des résultats impressionnants, elles présentent plusieurs lacunes, notamment une incohérence multi-vues, des textures sursaturées et trop lissées, ainsi qu'une vitesse de génération lente. Pour remédier à ces insuffisances, nous présentons Repaint123, qui vise à atténuer le biais multi-vues et la dégradation des textures, tout en accélérant le processus de génération. L'idée centrale est de combiner la puissante capacité de génération d'images du modèle de diffusion 2D avec la capacité d'alignement des textures de la stratégie de repainting pour produire des images multi-vues de haute qualité et cohérentes. Nous proposons en outre une force de repainting adaptative basée sur la visibilité pour les régions de chevauchement, afin d'améliorer la qualité des images générées lors du processus de repainting. Les images générées, de haute qualité et cohérentes en multi-vues, permettent l'utilisation d'une simple perte par erreur quadratique moyenne (Mean Square Error, MSE) pour une génération rapide de contenu 3D. Nous menons des expériences approfondies et démontrons que notre méthode possède une capacité supérieure à générer du contenu 3D de haute qualité avec une cohérence multi-vues et des textures fines en 2 minutes à partir de zéro. Le code est disponible à l'adresse https://github.com/junwuzhang19/repaint123.
English
Recent one image to 3D generation methods commonly adopt Score Distillation
Sampling (SDS). Despite the impressive results, there are multiple deficiencies
including multi-view inconsistency, over-saturated and over-smoothed textures,
as well as the slow generation speed. To address these deficiencies, we present
Repaint123 to alleviate multi-view bias as well as texture degradation and
speed up the generation process. The core idea is to combine the powerful image
generation capability of the 2D diffusion model and the texture alignment
ability of the repainting strategy for generating high-quality multi-view
images with consistency. We further propose visibility-aware adaptive
repainting strength for overlap regions to enhance the generated image quality
in the repainting process. The generated high-quality and multi-view consistent
images enable the use of simple Mean Square Error (MSE) loss for fast 3D
content generation. We conduct extensive experiments and show that our method
has a superior ability to generate high-quality 3D content with multi-view
consistency and fine textures in 2 minutes from scratch. Code is at
https://github.com/junwuzhang19/repaint123.