Isotropic3D : Génération d'images en 3D basée sur un seul embedding CLIP
Isotropic3D: Image-to-3D Generation Based on a Single CLIP Embedding
March 15, 2024
Auteurs: Pengkun Liu, Yikai Wang, Fuchun Sun, Jiafang Li, Hang Xiao, Hongxiang Xue, Xinzhou Wang
cs.AI
Résumé
Encouragé par la disponibilité croissante de modèles de diffusion 2D pré-entraînés, la génération d'images en 3D en exploitant le Score Distillation Sampling (SDS) réalise des progrès remarquables. La plupart des méthodes existantes combinent une élévation de nouvelles vues à partir de modèles de diffusion 2D, qui prennent généralement l'image de référence comme condition, tout en appliquant une supervision stricte par L2 sur la vue de référence. Cependant, une adhérence excessive à l'image tend à corrompre les connaissances inductives du modèle de diffusion 2D, conduisant fréquemment à une génération 3D plate ou déformée. Dans ce travail, nous réexaminons la génération d'images en 3D sous un nouvel angle et présentons Isotropic3D, un pipeline de génération d'images en 3D qui ne prend en entrée qu'une embedding CLIP d'image. Isotropic3D permet à l'optimisation d'être isotrope par rapport à l'angle azimutal en s'appuyant uniquement sur la perte SDS. Le cœur de notre cadre repose sur un affinage en deux étapes d'un modèle de diffusion. Premièrement, nous affinons un modèle de diffusion texte-à-3D en remplaçant son encodeur de texte par un encodeur d'image, ce qui permet au modèle d'acquérir préliminairement des capacités image-à-image. Deuxièmement, nous effectuons un affinage en utilisant notre Explicit Multi-view Attention (EMA), qui combine des images multi-vues bruitées avec l'image de référence sans bruit comme condition explicite. L'embedding CLIP est envoyé au modèle de diffusion tout au long du processus, tandis que les images de référence sont abandonnées une fois l'affinage terminé. En conséquence, avec une seule embedding CLIP d'image, Isotropic3D est capable de générer des images multi-vues mutuellement cohérentes ainsi qu'un modèle 3D avec un contenu plus symétrique et net, une géométrie bien proportionnée, une texture riche en couleurs et moins de distorsion par rapport aux méthodes existantes de génération d'images en 3D, tout en préservant largement la similarité avec l'image de référence. La page du projet est disponible à l'adresse https://isotropic3d.github.io/. Le code et les modèles sont disponibles à l'adresse https://github.com/pkunliu/Isotropic3D.
English
Encouraged by the growing availability of pre-trained 2D diffusion models,
image-to-3D generation by leveraging Score Distillation Sampling (SDS) is
making remarkable progress. Most existing methods combine novel-view lifting
from 2D diffusion models which usually take the reference image as a condition
while applying hard L2 image supervision at the reference view. Yet heavily
adhering to the image is prone to corrupting the inductive knowledge of the 2D
diffusion model leading to flat or distorted 3D generation frequently. In this
work, we reexamine image-to-3D in a novel perspective and present Isotropic3D,
an image-to-3D generation pipeline that takes only an image CLIP embedding as
input. Isotropic3D allows the optimization to be isotropic w.r.t. the azimuth
angle by solely resting on the SDS loss. The core of our framework lies in a
two-stage diffusion model fine-tuning. Firstly, we fine-tune a text-to-3D
diffusion model by substituting its text encoder with an image encoder, by
which the model preliminarily acquires image-to-image capabilities. Secondly,
we perform fine-tuning using our Explicit Multi-view Attention (EMA) which
combines noisy multi-view images with the noise-free reference image as an
explicit condition. CLIP embedding is sent to the diffusion model throughout
the whole process while reference images are discarded once after fine-tuning.
As a result, with a single image CLIP embedding, Isotropic3D is capable of
generating multi-view mutually consistent images and also a 3D model with more
symmetrical and neat content, well-proportioned geometry, rich colored texture,
and less distortion compared with existing image-to-3D methods while still
preserving the similarity to the reference image to a large extent. The project
page is available at https://isotropic3d.github.io/. The code and models are
available at https://github.com/pkunliu/Isotropic3D.Summary
AI-Generated Summary