ChatPaper.aiChatPaper

Isotropic3D: Geração de Imagem para 3D Baseada em um Único Embedding CLIP

Isotropic3D: Image-to-3D Generation Based on a Single CLIP Embedding

March 15, 2024
Autores: Pengkun Liu, Yikai Wang, Fuchun Sun, Jiafang Li, Hang Xiao, Hongxiang Xue, Xinzhou Wang
cs.AI

Resumo

Estimulados pela crescente disponibilidade de modelos de difusão 2D pré-treinados, a geração de imagens 3D a partir de imagens 2D, utilizando o Score Distillation Sampling (SDS), está alcançando progressos notáveis. A maioria dos métodos existentes combina a elevação de novas perspectivas a partir de modelos de difusão 2D, que geralmente utilizam a imagem de referência como condição, enquanto aplicam uma supervisão rígida de imagem L2 na vista de referência. No entanto, a adesão excessiva à imagem tende a corromper o conhecimento indutivo do modelo de difusão 2D, frequentemente resultando em gerações 3D planas ou distorcidas. Neste trabalho, reexaminamos a geração de imagens 3D a partir de uma nova perspectiva e apresentamos o Isotropic3D, um pipeline de geração de imagens 3D que utiliza apenas um embedding CLIP de imagem como entrada. O Isotropic3D permite que a otimização seja isotrópica em relação ao ângulo azimutal, baseando-se exclusivamente na perda SDS. O núcleo do nosso framework reside em um ajuste fino de modelo de difusão em duas etapas. Primeiramente, ajustamos um modelo de difusão de texto para 3D substituindo seu codificador de texto por um codificador de imagem, pelo qual o modelo adquire preliminarmente capacidades de imagem para imagem. Em seguida, realizamos o ajuste fino utilizando nossa Explicit Multi-view Attention (EMA), que combina imagens multi-vista ruidosas com a imagem de referência livre de ruído como uma condição explícita. O embedding CLIP é enviado ao modelo de difusão durante todo o processo, enquanto as imagens de referência são descartadas após o ajuste fino. Como resultado, com um único embedding CLIP de imagem, o Isotropic3D é capaz de gerar imagens multi-vista mutuamente consistentes e também um modelo 3D com conteúdo mais simétrico e limpo, geometria bem proporcionada, textura colorida rica e menos distorção em comparação com os métodos existentes de geração de imagens 3D, preservando ainda em grande parte a semelhança com a imagem de referência. A página do projeto está disponível em https://isotropic3d.github.io/. O código e os modelos estão disponíveis em https://github.com/pkunliu/Isotropic3D.
English
Encouraged by the growing availability of pre-trained 2D diffusion models, image-to-3D generation by leveraging Score Distillation Sampling (SDS) is making remarkable progress. Most existing methods combine novel-view lifting from 2D diffusion models which usually take the reference image as a condition while applying hard L2 image supervision at the reference view. Yet heavily adhering to the image is prone to corrupting the inductive knowledge of the 2D diffusion model leading to flat or distorted 3D generation frequently. In this work, we reexamine image-to-3D in a novel perspective and present Isotropic3D, an image-to-3D generation pipeline that takes only an image CLIP embedding as input. Isotropic3D allows the optimization to be isotropic w.r.t. the azimuth angle by solely resting on the SDS loss. The core of our framework lies in a two-stage diffusion model fine-tuning. Firstly, we fine-tune a text-to-3D diffusion model by substituting its text encoder with an image encoder, by which the model preliminarily acquires image-to-image capabilities. Secondly, we perform fine-tuning using our Explicit Multi-view Attention (EMA) which combines noisy multi-view images with the noise-free reference image as an explicit condition. CLIP embedding is sent to the diffusion model throughout the whole process while reference images are discarded once after fine-tuning. As a result, with a single image CLIP embedding, Isotropic3D is capable of generating multi-view mutually consistent images and also a 3D model with more symmetrical and neat content, well-proportioned geometry, rich colored texture, and less distortion compared with existing image-to-3D methods while still preserving the similarity to the reference image to a large extent. The project page is available at https://isotropic3d.github.io/. The code and models are available at https://github.com/pkunliu/Isotropic3D.
PDF81February 8, 2026