Изотропный3D: Генерация 3D изображений на основе одного встраивания CLIP
Isotropic3D: Image-to-3D Generation Based on a Single CLIP Embedding
March 15, 2024
Авторы: Pengkun Liu, Yikai Wang, Fuchun Sun, Jiafang Li, Hang Xiao, Hongxiang Xue, Xinzhou Wang
cs.AI
Аннотация
Воодушевленные растущей доступностью предварительно обученных 2D моделей диффузии, генерация изображения в 3D с использованием метода выборочного дистилляционного сэмплирования (SDS) делает замечательные успехи. Большинство существующих методов объединяют подъем нового вида из 2D моделей диффузии, которые обычно принимают изображение-референс в качестве условия, применяя жесткий L2-надзор за изображением на референтном виде. Однако сильная привязанность к изображению склонна к искажению индуктивных знаний 2D модели диффузии, что часто приводит к плоскому или искаженному созданию 3D. В данной работе мы пересматриваем генерацию изображения в 3D с новой точки зрения и представляем Isotropic3D, конвейер генерации изображения в 3D, который принимает только встраивание изображения CLIP в качестве входных данных. Isotropic3D позволяет оптимизировать изотропно относительно азимутального угла, полагаясь исключительно на потерю SDS. Основа нашей структуры заключается в настройке двухступенчатой модели диффузии. Во-первых, мы настраиваем модель диффузии текста в 3D, заменяя ее текстовый энкодер на изображение, благодаря чему модель приобретает предварительные возможности изображения к изображению. Во-вторых, мы выполняем настройку с использованием нашего Явного Многовидового Внимания (EMA), который объединяет шумные многовидовые изображения с шумоизолированным референтным изображением в качестве явного условия. Встраивание CLIP отправляется в модель диффузии на протяжении всего процесса, в то время как референтные изображения отбрасываются после настройки. В результате, с помощью одного встраивания изображения CLIP, Isotropic3D способен генерировать многовидовые взаимно согласованные изображения и также 3D-модель с более симметричным и аккуратным содержанием, хорошо пропорционированной геометрией, богатой цветной текстурой и меньшим искажением по сравнению с существующими методами генерации изображения в 3D, сохраняя при этом сходство с референтным изображением в значительной степени. Страница проекта доступна по адресу https://isotropic3d.github.io/. Код и модели доступны по адресу https://github.com/pkunliu/Isotropic3D.
English
Encouraged by the growing availability of pre-trained 2D diffusion models,
image-to-3D generation by leveraging Score Distillation Sampling (SDS) is
making remarkable progress. Most existing methods combine novel-view lifting
from 2D diffusion models which usually take the reference image as a condition
while applying hard L2 image supervision at the reference view. Yet heavily
adhering to the image is prone to corrupting the inductive knowledge of the 2D
diffusion model leading to flat or distorted 3D generation frequently. In this
work, we reexamine image-to-3D in a novel perspective and present Isotropic3D,
an image-to-3D generation pipeline that takes only an image CLIP embedding as
input. Isotropic3D allows the optimization to be isotropic w.r.t. the azimuth
angle by solely resting on the SDS loss. The core of our framework lies in a
two-stage diffusion model fine-tuning. Firstly, we fine-tune a text-to-3D
diffusion model by substituting its text encoder with an image encoder, by
which the model preliminarily acquires image-to-image capabilities. Secondly,
we perform fine-tuning using our Explicit Multi-view Attention (EMA) which
combines noisy multi-view images with the noise-free reference image as an
explicit condition. CLIP embedding is sent to the diffusion model throughout
the whole process while reference images are discarded once after fine-tuning.
As a result, with a single image CLIP embedding, Isotropic3D is capable of
generating multi-view mutually consistent images and also a 3D model with more
symmetrical and neat content, well-proportioned geometry, rich colored texture,
and less distortion compared with existing image-to-3D methods while still
preserving the similarity to the reference image to a large extent. The project
page is available at https://isotropic3d.github.io/. The code and models are
available at https://github.com/pkunliu/Isotropic3D.Summary
AI-Generated Summary