VFusion3D: Обучение масштабируемых трехмерных генеративных моделей из видео диффузии.
VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models
March 18, 2024
Авторы: Junlin Han, Filippos Kokkinos, Philip Torr
cs.AI
Аннотация
Данный доклад представляет новую парадигму построения масштабируемых 3D генеративных моделей с использованием предварительно обученных моделей диффузии видео. Основным препятствием при разработке основных 3D генеративных моделей является ограниченная доступность 3D данных. В отличие от изображений, текстов или видео, 3D данные не доступны легко и сложно получить. Это приводит к значительному разрыву в масштабе по сравнению с огромными объемами других типов данных. Для решения этой проблемы мы предлагаем использовать модель диффузии видео, обученную на обширных объемах текста, изображений и видео, в качестве источника знаний для 3D данных. Разблокировав ее многоплановые генеративные возможности через донастройку, мы создаем крупномасштабный синтетический многоплановый набор данных для обучения прямой 3D генеративной модели. Предложенная модель, VFusion3D, обученная на почти 3 млн синтетических многоплановых данных, способна генерировать 3D объект из одного изображения за секунды и достигает превосходных результатов по сравнению с текущими передовыми прямыми 3D генеративными моделями, с предпочтением пользователей в пользу наших результатов более чем в 70% случаев.
English
This paper presents a novel paradigm for building scalable 3D generative
models utilizing pre-trained video diffusion models. The primary obstacle in
developing foundation 3D generative models is the limited availability of 3D
data. Unlike images, texts, or videos, 3D data are not readily accessible and
are difficult to acquire. This results in a significant disparity in scale
compared to the vast quantities of other types of data. To address this issue,
we propose using a video diffusion model, trained with extensive volumes of
text, images, and videos, as a knowledge source for 3D data. By unlocking its
multi-view generative capabilities through fine-tuning, we generate a
large-scale synthetic multi-view dataset to train a feed-forward 3D generative
model. The proposed model, VFusion3D, trained on nearly 3M synthetic multi-view
data, can generate a 3D asset from a single image in seconds and achieves
superior performance when compared to current SOTA feed-forward 3D generative
models, with users preferring our results over 70% of the time.Summary
AI-Generated Summary