Isotropic3D: Generazione 3D da Immagine Basata su un Singolo Embedding CLIP

Abstract

Incoraggiati dalla crescente disponibilità di modelli di diffusione 2D pre-addestrati, la generazione da immagine a 3D sfruttando il Score Distillation Sampling (SDS) sta compiendo progressi significativi. La maggior parte dei metodi esistenti combina il sollevamento di nuove viste da modelli di diffusione 2D, che di solito prendono l'immagine di riferimento come condizione, applicando una supervisione L2 rigida all'immagine di riferimento. Tuttavia, un'aderenza eccessiva all'immagine tende a corrompere la conoscenza induttiva del modello di diffusione 2D, portando frequentemente a una generazione 3D piatta o distorta. In questo lavoro, riesaminiamo la generazione da immagine a 3D da una nuova prospettiva e presentiamo Isotropic3D, una pipeline di generazione da immagine a 3D che prende in input solo un embedding CLIP di un'immagine. Isotropic3D consente all'ottimizzazione di essere isotropa rispetto all'angolo azimutale basandosi esclusivamente sulla perdita SDS. Il cuore del nostro framework risiede in un fine-tuning a due stadi del modello di diffusione. In primo luogo, eseguiamo il fine-tuning di un modello di diffusione da testo a 3D sostituendo il suo encoder di testo con un encoder di immagini, attraverso il quale il modello acquisisce preliminarmente capacità da immagine a immagine. In secondo luogo, eseguiamo il fine-tuning utilizzando la nostra Explicit Multi-view Attention (EMA), che combina immagini multi-vista rumorose con l'immagine di riferimento priva di rumore come condizione esplicita. L'embedding CLIP viene inviato al modello di diffusione durante l'intero processo, mentre le immagini di riferimento vengono scartate una volta completato il fine-tuning. Di conseguenza, con un singolo embedding CLIP di un'immagine, Isotropic3D è in grado di generare immagini multi-vista reciprocamente consistenti e anche un modello 3D con contenuti più simmetrici e ordinati, geometria ben proporzionata, texture ricca di colori e meno distorsioni rispetto ai metodi esistenti da immagine a 3D, pur preservando in larga misura la somiglianza con l'immagine di riferimento. La pagina del progetto è disponibile all'indirizzo https://isotropic3d.github.io/. Il codice e i modelli sono disponibili all'indirizzo https://github.com/pkunliu/Isotropic3D.

English

Encouraged by the growing availability of pre-trained 2D diffusion models, image-to-3D generation by leveraging Score Distillation Sampling (SDS) is making remarkable progress. Most existing methods combine novel-view lifting from 2D diffusion models which usually take the reference image as a condition while applying hard L2 image supervision at the reference view. Yet heavily adhering to the image is prone to corrupting the inductive knowledge of the 2D diffusion model leading to flat or distorted 3D generation frequently. In this work, we reexamine image-to-3D in a novel perspective and present Isotropic3D, an image-to-3D generation pipeline that takes only an image CLIP embedding as input. Isotropic3D allows the optimization to be isotropic w.r.t. the azimuth angle by solely resting on the SDS loss. The core of our framework lies in a two-stage diffusion model fine-tuning. Firstly, we fine-tune a text-to-3D diffusion model by substituting its text encoder with an image encoder, by which the model preliminarily acquires image-to-image capabilities. Secondly, we perform fine-tuning using our Explicit Multi-view Attention (EMA) which combines noisy multi-view images with the noise-free reference image as an explicit condition. CLIP embedding is sent to the diffusion model throughout the whole process while reference images are discarded once after fine-tuning. As a result, with a single image CLIP embedding, Isotropic3D is capable of generating multi-view mutually consistent images and also a 3D model with more symmetrical and neat content, well-proportioned geometry, rich colored texture, and less distortion compared with existing image-to-3D methods while still preserving the similarity to the reference image to a large extent. The project page is available at https://isotropic3d.github.io/. The code and models are available at https://github.com/pkunliu/Isotropic3D.

Isotropic3D: Generazione 3D da Immagine Basata su un Singolo Embedding CLIP

Isotropic3D: Image-to-3D Generation Based on a Single CLIP Embedding

Abstract

Support