ChatPaper.aiChatPaper

Isotropic3D: Generierung von 3D-Modellen aus Bildern basierend auf einer einzigen CLIP-Einbettung

Isotropic3D: Image-to-3D Generation Based on a Single CLIP Embedding

March 15, 2024
Autoren: Pengkun Liu, Yikai Wang, Fuchun Sun, Jiafang Li, Hang Xiao, Hongxiang Xue, Xinzhou Wang
cs.AI

Zusammenfassung

Angespornt durch die zunehmende Verfügbarkeit von vortrainierten 2D-Diffusionsmodellen, macht die Bild-zu-3D-Generierung unter Verwendung von Score Distillation Sampling (SDS) bemerkenswerte Fortschritte. Die meisten bestehenden Methoden kombinieren die Neuansicht-Transformation von 2D-Diffusionsmodellen, die in der Regel das Referenzbild als Bedingung verwenden, während sie eine harte L2-Bildüberwachung in der Referenzansicht anwenden. Doch eine starke Bindung an das Bild neigt dazu, das induktive Wissen des 2D-Diffusionsmodells zu verfälschen, was häufig zu flacher oder verzerrter 3D-Generierung führt. In dieser Arbeit überprüfen wir die Bild-zu-3D-Generierung aus einer neuen Perspektive und präsentieren Isotropic3D, eine Bild-zu-3D-Generierungspipeline, die nur ein Bild-CLIP-Embedding als Eingabe verwendet. Isotropic3D ermöglicht es, die Optimierung isotrop bezüglich des Azimutwinkels zu gestalten, indem es ausschließlich auf den SDS-Verlust setzt. Der Kern unseres Frameworks liegt in einem zweistufigen Feinabstimmungsprozess des Diffusionsmodells. Zunächst verfeinern wir ein Text-zu-3D-Diffusionsmodell, indem wir seinen Text-Encoder durch einen Bild-Encoder ersetzen, wodurch das Modell vorläufig Bild-zu-Bild-Fähigkeiten erwirbt. Anschließend führen wir eine Feinabstimmung unter Verwendung unserer Explicit Multi-view Attention (EMA) durch, die rauschhafte Multi-View-Bilder mit dem rauschfreien Referenzbild als explizite Bedingung kombiniert. Das CLIP-Embedding wird während des gesamten Prozesses an das Diffusionsmodell gesendet, während Referenzbilder nach der Feinabstimmung verworfen werden. Als Ergebnis ist Isotropic3D in der Lage, mit nur einem Bild-CLIP-Embedding Multi-View-Bilder zu erzeugen, die sich gegenseitig konsistent sind, sowie ein 3D-Modell mit symmetrischeren und ordentlicheren Inhalten, gut proportionierter Geometrie, reichhaltiger farbiger Textur und weniger Verzerrungen im Vergleich zu bestehenden Bild-zu-3D-Methoden zu generieren, während es gleichzeitig die Ähnlichkeit zum Referenzbild weitgehend bewahrt. Die Projektseite ist unter https://isotropic3d.github.io/ verfügbar. Der Code und die Modelle sind unter https://github.com/pkunliu/Isotropic3D verfügbar.
English
Encouraged by the growing availability of pre-trained 2D diffusion models, image-to-3D generation by leveraging Score Distillation Sampling (SDS) is making remarkable progress. Most existing methods combine novel-view lifting from 2D diffusion models which usually take the reference image as a condition while applying hard L2 image supervision at the reference view. Yet heavily adhering to the image is prone to corrupting the inductive knowledge of the 2D diffusion model leading to flat or distorted 3D generation frequently. In this work, we reexamine image-to-3D in a novel perspective and present Isotropic3D, an image-to-3D generation pipeline that takes only an image CLIP embedding as input. Isotropic3D allows the optimization to be isotropic w.r.t. the azimuth angle by solely resting on the SDS loss. The core of our framework lies in a two-stage diffusion model fine-tuning. Firstly, we fine-tune a text-to-3D diffusion model by substituting its text encoder with an image encoder, by which the model preliminarily acquires image-to-image capabilities. Secondly, we perform fine-tuning using our Explicit Multi-view Attention (EMA) which combines noisy multi-view images with the noise-free reference image as an explicit condition. CLIP embedding is sent to the diffusion model throughout the whole process while reference images are discarded once after fine-tuning. As a result, with a single image CLIP embedding, Isotropic3D is capable of generating multi-view mutually consistent images and also a 3D model with more symmetrical and neat content, well-proportioned geometry, rich colored texture, and less distortion compared with existing image-to-3D methods while still preserving the similarity to the reference image to a large extent. The project page is available at https://isotropic3d.github.io/. The code and models are available at https://github.com/pkunliu/Isotropic3D.

Summary

AI-Generated Summary

PDF91December 15, 2024