Isotropic3D: Generación de Imagen a 3D Basada en un Único Embedding CLIP

Resumen

Impulsados por la creciente disponibilidad de modelos de difusión 2D preentrenados, la generación de imágenes a 3D mediante el uso de Score Distillation Sampling (SDS) está logrando avances notables. La mayoría de los métodos existentes combinan la elevación de nuevas vistas a partir de modelos de difusión 2D, que suelen tomar la imagen de referencia como condición, mientras aplican una supervisión estricta L2 en la vista de referencia. Sin embargo, adherirse demasiado a la imagen tiende a corromper el conocimiento inductivo del modelo de difusión 2D, lo que frecuentemente resulta en generaciones 3D planas o distorsionadas. En este trabajo, reexaminamos la generación de imágenes a 3D desde una nueva perspectiva y presentamos Isotropic3D, una pipeline de generación de imágenes a 3D que toma únicamente un embedding CLIP de imagen como entrada. Isotropic3D permite que la optimización sea isotrópica con respecto al ángulo azimutal al basarse únicamente en la pérdida SDS. El núcleo de nuestro marco radica en un ajuste fino del modelo de difusión en dos etapas. En primer lugar, ajustamos un modelo de difusión de texto a 3D sustituyendo su codificador de texto por un codificador de imágenes, con lo cual el modelo adquiere preliminarmente capacidades de imagen a imagen. En segundo lugar, realizamos un ajuste fino utilizando nuestro Explicit Multi-view Attention (EMA), que combina imágenes multivista ruidosas con la imagen de referencia libre de ruido como una condición explícita. El embedding CLIP se envía al modelo de difusión durante todo el proceso, mientras que las imágenes de referencia se descartan una vez finalizado el ajuste fino. Como resultado, con un solo embedding CLIP de imagen, Isotropic3D es capaz de generar imágenes multivista mutuamente consistentes y también un modelo 3D con contenido más simétrico y ordenado, geometría bien proporcionada, textura rica en color y menos distorsión en comparación con los métodos existentes de imagen a 3D, al mismo tiempo que preserva en gran medida la similitud con la imagen de referencia. La página del proyecto está disponible en https://isotropic3d.github.io/. El código y los modelos están disponibles en https://github.com/pkunliu/Isotropic3D.

English

Encouraged by the growing availability of pre-trained 2D diffusion models, image-to-3D generation by leveraging Score Distillation Sampling (SDS) is making remarkable progress. Most existing methods combine novel-view lifting from 2D diffusion models which usually take the reference image as a condition while applying hard L2 image supervision at the reference view. Yet heavily adhering to the image is prone to corrupting the inductive knowledge of the 2D diffusion model leading to flat or distorted 3D generation frequently. In this work, we reexamine image-to-3D in a novel perspective and present Isotropic3D, an image-to-3D generation pipeline that takes only an image CLIP embedding as input. Isotropic3D allows the optimization to be isotropic w.r.t. the azimuth angle by solely resting on the SDS loss. The core of our framework lies in a two-stage diffusion model fine-tuning. Firstly, we fine-tune a text-to-3D diffusion model by substituting its text encoder with an image encoder, by which the model preliminarily acquires image-to-image capabilities. Secondly, we perform fine-tuning using our Explicit Multi-view Attention (EMA) which combines noisy multi-view images with the noise-free reference image as an explicit condition. CLIP embedding is sent to the diffusion model throughout the whole process while reference images are discarded once after fine-tuning. As a result, with a single image CLIP embedding, Isotropic3D is capable of generating multi-view mutually consistent images and also a 3D model with more symmetrical and neat content, well-proportioned geometry, rich colored texture, and less distortion compared with existing image-to-3D methods while still preserving the similarity to the reference image to a large extent. The project page is available at https://isotropic3d.github.io/. The code and models are available at https://github.com/pkunliu/Isotropic3D.

Isotropic3D: Generación de Imagen a 3D Basada en un Único Embedding CLIP

Isotropic3D: Image-to-3D Generation Based on a Single CLIP Embedding

Resumen

Support