Isotropic3D : Génération d'images en 3D basée sur un seul embedding CLIP

papers.abstract

Encouragé par la disponibilité croissante de modèles de diffusion 2D pré-entraînés, la génération d'images en 3D en exploitant le Score Distillation Sampling (SDS) réalise des progrès remarquables. La plupart des méthodes existantes combinent une élévation de nouvelles vues à partir de modèles de diffusion 2D, qui prennent généralement l'image de référence comme condition, tout en appliquant une supervision stricte par L2 sur la vue de référence. Cependant, une adhérence excessive à l'image tend à corrompre les connaissances inductives du modèle de diffusion 2D, conduisant fréquemment à une génération 3D plate ou déformée. Dans ce travail, nous réexaminons la génération d'images en 3D sous un nouvel angle et présentons Isotropic3D, un pipeline de génération d'images en 3D qui ne prend en entrée qu'une embedding CLIP d'image. Isotropic3D permet à l'optimisation d'être isotrope par rapport à l'angle azimutal en s'appuyant uniquement sur la perte SDS. Le cœur de notre cadre repose sur un affinage en deux étapes d'un modèle de diffusion. Premièrement, nous affinons un modèle de diffusion texte-à-3D en remplaçant son encodeur de texte par un encodeur d'image, ce qui permet au modèle d'acquérir préliminairement des capacités image-à-image. Deuxièmement, nous effectuons un affinage en utilisant notre Explicit Multi-view Attention (EMA), qui combine des images multi-vues bruitées avec l'image de référence sans bruit comme condition explicite. L'embedding CLIP est envoyé au modèle de diffusion tout au long du processus, tandis que les images de référence sont abandonnées une fois l'affinage terminé. En conséquence, avec une seule embedding CLIP d'image, Isotropic3D est capable de générer des images multi-vues mutuellement cohérentes ainsi qu'un modèle 3D avec un contenu plus symétrique et net, une géométrie bien proportionnée, une texture riche en couleurs et moins de distorsion par rapport aux méthodes existantes de génération d'images en 3D, tout en préservant largement la similarité avec l'image de référence. La page du projet est disponible à l'adresse https://isotropic3d.github.io/. Le code et les modèles sont disponibles à l'adresse https://github.com/pkunliu/Isotropic3D.

English

Encouraged by the growing availability of pre-trained 2D diffusion models, image-to-3D generation by leveraging Score Distillation Sampling (SDS) is making remarkable progress. Most existing methods combine novel-view lifting from 2D diffusion models which usually take the reference image as a condition while applying hard L2 image supervision at the reference view. Yet heavily adhering to the image is prone to corrupting the inductive knowledge of the 2D diffusion model leading to flat or distorted 3D generation frequently. In this work, we reexamine image-to-3D in a novel perspective and present Isotropic3D, an image-to-3D generation pipeline that takes only an image CLIP embedding as input. Isotropic3D allows the optimization to be isotropic w.r.t. the azimuth angle by solely resting on the SDS loss. The core of our framework lies in a two-stage diffusion model fine-tuning. Firstly, we fine-tune a text-to-3D diffusion model by substituting its text encoder with an image encoder, by which the model preliminarily acquires image-to-image capabilities. Secondly, we perform fine-tuning using our Explicit Multi-view Attention (EMA) which combines noisy multi-view images with the noise-free reference image as an explicit condition. CLIP embedding is sent to the diffusion model throughout the whole process while reference images are discarded once after fine-tuning. As a result, with a single image CLIP embedding, Isotropic3D is capable of generating multi-view mutually consistent images and also a 3D model with more symmetrical and neat content, well-proportioned geometry, rich colored texture, and less distortion compared with existing image-to-3D methods while still preserving the similarity to the reference image to a large extent. The project page is available at https://isotropic3d.github.io/. The code and models are available at https://github.com/pkunliu/Isotropic3D.

Isotropic3D : Génération d'images en 3D basée sur un seul embedding CLIP

Isotropic3D: Image-to-3D Generation Based on a Single CLIP Embedding

papers.abstract

Support