Isotropic3D: Generazione 3D da Immagine Basata su un Singolo Embedding CLIP
Isotropic3D: Image-to-3D Generation Based on a Single CLIP Embedding
March 15, 2024
Autori: Pengkun Liu, Yikai Wang, Fuchun Sun, Jiafang Li, Hang Xiao, Hongxiang Xue, Xinzhou Wang
cs.AI
Abstract
Incoraggiati dalla crescente disponibilità di modelli di diffusione 2D pre-addestrati, la generazione da immagine a 3D sfruttando il Score Distillation Sampling (SDS) sta compiendo progressi significativi. La maggior parte dei metodi esistenti combina il sollevamento di nuove viste da modelli di diffusione 2D, che di solito prendono l'immagine di riferimento come condizione, applicando una supervisione L2 rigida all'immagine di riferimento. Tuttavia, un'aderenza eccessiva all'immagine tende a corrompere la conoscenza induttiva del modello di diffusione 2D, portando frequentemente a una generazione 3D piatta o distorta. In questo lavoro, riesaminiamo la generazione da immagine a 3D da una nuova prospettiva e presentiamo Isotropic3D, una pipeline di generazione da immagine a 3D che prende in input solo un embedding CLIP di un'immagine. Isotropic3D consente all'ottimizzazione di essere isotropa rispetto all'angolo azimutale basandosi esclusivamente sulla perdita SDS. Il cuore del nostro framework risiede in un fine-tuning a due stadi del modello di diffusione. In primo luogo, eseguiamo il fine-tuning di un modello di diffusione da testo a 3D sostituendo il suo encoder di testo con un encoder di immagini, attraverso il quale il modello acquisisce preliminarmente capacità da immagine a immagine. In secondo luogo, eseguiamo il fine-tuning utilizzando la nostra Explicit Multi-view Attention (EMA), che combina immagini multi-vista rumorose con l'immagine di riferimento priva di rumore come condizione esplicita. L'embedding CLIP viene inviato al modello di diffusione durante l'intero processo, mentre le immagini di riferimento vengono scartate una volta completato il fine-tuning. Di conseguenza, con un singolo embedding CLIP di un'immagine, Isotropic3D è in grado di generare immagini multi-vista reciprocamente consistenti e anche un modello 3D con contenuti più simmetrici e ordinati, geometria ben proporzionata, texture ricca di colori e meno distorsioni rispetto ai metodi esistenti da immagine a 3D, pur preservando in larga misura la somiglianza con l'immagine di riferimento. La pagina del progetto è disponibile all'indirizzo https://isotropic3d.github.io/. Il codice e i modelli sono disponibili all'indirizzo https://github.com/pkunliu/Isotropic3D.
English
Encouraged by the growing availability of pre-trained 2D diffusion models,
image-to-3D generation by leveraging Score Distillation Sampling (SDS) is
making remarkable progress. Most existing methods combine novel-view lifting
from 2D diffusion models which usually take the reference image as a condition
while applying hard L2 image supervision at the reference view. Yet heavily
adhering to the image is prone to corrupting the inductive knowledge of the 2D
diffusion model leading to flat or distorted 3D generation frequently. In this
work, we reexamine image-to-3D in a novel perspective and present Isotropic3D,
an image-to-3D generation pipeline that takes only an image CLIP embedding as
input. Isotropic3D allows the optimization to be isotropic w.r.t. the azimuth
angle by solely resting on the SDS loss. The core of our framework lies in a
two-stage diffusion model fine-tuning. Firstly, we fine-tune a text-to-3D
diffusion model by substituting its text encoder with an image encoder, by
which the model preliminarily acquires image-to-image capabilities. Secondly,
we perform fine-tuning using our Explicit Multi-view Attention (EMA) which
combines noisy multi-view images with the noise-free reference image as an
explicit condition. CLIP embedding is sent to the diffusion model throughout
the whole process while reference images are discarded once after fine-tuning.
As a result, with a single image CLIP embedding, Isotropic3D is capable of
generating multi-view mutually consistent images and also a 3D model with more
symmetrical and neat content, well-proportioned geometry, rich colored texture,
and less distortion compared with existing image-to-3D methods while still
preserving the similarity to the reference image to a large extent. The project
page is available at https://isotropic3d.github.io/. The code and models are
available at https://github.com/pkunliu/Isotropic3D.