ChatPaper.aiChatPaper

Isotropic3D: Beeld-naar-3D-generatie gebaseerd op een enkele CLIP-embedding

Isotropic3D: Image-to-3D Generation Based on a Single CLIP Embedding

March 15, 2024
Auteurs: Pengkun Liu, Yikai Wang, Fuchun Sun, Jiafang Li, Hang Xiao, Hongxiang Xue, Xinzhou Wang
cs.AI

Samenvatting

Aangemoedigd door de toenemende beschikbaarheid van vooraf getrainde 2D diffusiemodellen, boekt beeld-naar-3D-generatie door gebruik te maken van Score Distillation Sampling (SDS) opmerkelijke vooruitgang. De meeste bestaande methoden combineren het creëren van nieuwe perspectieven vanuit 2D diffusiemodellen, die meestal het referentiebeeld als voorwaarde nemen, terwijl ze strikte L2-beeldsupervisie toepassen bij het referentieperspectief. Echter, een sterke gehechtheid aan het beeld kan de inductieve kennis van het 2D diffusiemodel aantasten, wat vaak leidt tot vlakke of vervormde 3D-generaties. In dit werk onderzoeken we beeld-naar-3D vanuit een nieuw perspectief en presenteren we Isotropic3D, een beeld-naar-3D-generatiepijplijn die alleen een CLIP-embedding van een beeld als invoer neemt. Isotropic3D maakt de optimalisatie isotroop ten opzichte van de azimutale hoek door uitsluitend te vertrouwen op het SDS-verlies. De kern van ons framework ligt in een tweestaps fine-tuning van het diffusiemodel. Ten eerste fine-tunen we een tekst-naar-3D diffusiemodel door de tekstencoder te vervangen door een beeldencoder, waardoor het model voorlopig beeld-naar-beeld-capaciteiten verkrijgt. Ten tweede voeren we fine-tuning uit met onze Explicit Multi-view Attention (EMA), die ruisrijke multi-view beelden combineert met het ruisvrije referentiebeeld als expliciete voorwaarde. De CLIP-embedding wordt gedurende het hele proces naar het diffusiemodel gestuurd, terwijl referentiebeelden na de fine-tuning worden weggegooid. Als resultaat kan Isotropic3D met een enkele CLIP-embedding van een beeld multi-view onderling consistente beelden genereren, evenals een 3D-model met meer symmetrische en nette inhoud, goed geproportioneerde geometrie, rijke gekleurde textuur en minder vervorming in vergelijking met bestaande beeld-naar-3D-methoden, terwijl het nog steeds in grote mate de gelijkenis met het referentiebeeld behoudt. De projectpagina is beschikbaar op https://isotropic3d.github.io/. De code en modellen zijn beschikbaar op https://github.com/pkunliu/Isotropic3D.
English
Encouraged by the growing availability of pre-trained 2D diffusion models, image-to-3D generation by leveraging Score Distillation Sampling (SDS) is making remarkable progress. Most existing methods combine novel-view lifting from 2D diffusion models which usually take the reference image as a condition while applying hard L2 image supervision at the reference view. Yet heavily adhering to the image is prone to corrupting the inductive knowledge of the 2D diffusion model leading to flat or distorted 3D generation frequently. In this work, we reexamine image-to-3D in a novel perspective and present Isotropic3D, an image-to-3D generation pipeline that takes only an image CLIP embedding as input. Isotropic3D allows the optimization to be isotropic w.r.t. the azimuth angle by solely resting on the SDS loss. The core of our framework lies in a two-stage diffusion model fine-tuning. Firstly, we fine-tune a text-to-3D diffusion model by substituting its text encoder with an image encoder, by which the model preliminarily acquires image-to-image capabilities. Secondly, we perform fine-tuning using our Explicit Multi-view Attention (EMA) which combines noisy multi-view images with the noise-free reference image as an explicit condition. CLIP embedding is sent to the diffusion model throughout the whole process while reference images are discarded once after fine-tuning. As a result, with a single image CLIP embedding, Isotropic3D is capable of generating multi-view mutually consistent images and also a 3D model with more symmetrical and neat content, well-proportioned geometry, rich colored texture, and less distortion compared with existing image-to-3D methods while still preserving the similarity to the reference image to a large extent. The project page is available at https://isotropic3d.github.io/. The code and models are available at https://github.com/pkunliu/Isotropic3D.
PDF81February 8, 2026