ChatPaper.aiChatPaper

VFusion3D: 비디오 확산 모델로부터 확장 가능한 3D 생성 모델 학습

VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models

March 18, 2024
저자: Junlin Han, Filippos Kokkinos, Philip Torr
cs.AI

초록

본 논문은 사전 학습된 비디오 확산 모델을 활용하여 확장 가능한 3D 생성 모델을 구축하는 새로운 패러다임을 제시합니다. 기초 3D 생성 모델 개발의 주요 장애물은 3D 데이터의 제한된 가용성입니다. 이미지, 텍스트 또는 비디오와 달리 3D 데이터는 쉽게 접근할 수 없고 획득하기 어렵습니다. 이로 인해 다른 유형의 데이터의 방대한 양에 비해 규모에서 상당한 차이가 발생합니다. 이 문제를 해결하기 위해, 우리는 텍스트, 이미지 및 비디오의 방대한 양으로 학습된 비디오 확산 모델을 3D 데이터의 지식 소스로 사용할 것을 제안합니다. 미세 조정을 통해 다중 뷰 생성 능력을 해제하여 대규모 합성 다중 뷰 데이터셋을 생성하고, 이를 통해 피드포워드 3D 생성 모델을 학습시킵니다. 제안된 모델인 VFusion3D는 약 300만 개의 합성 다중 뷰 데이터로 학습되어 단일 이미지에서 몇 초 만에 3D 자산을 생성할 수 있으며, 현재의 최첨단 피드포워드 3D 생성 모델과 비교하여 우수한 성능을 달성합니다. 사용자들은 70% 이상의 경우에서 우리의 결과를 선호했습니다.
English
This paper presents a novel paradigm for building scalable 3D generative models utilizing pre-trained video diffusion models. The primary obstacle in developing foundation 3D generative models is the limited availability of 3D data. Unlike images, texts, or videos, 3D data are not readily accessible and are difficult to acquire. This results in a significant disparity in scale compared to the vast quantities of other types of data. To address this issue, we propose using a video diffusion model, trained with extensive volumes of text, images, and videos, as a knowledge source for 3D data. By unlocking its multi-view generative capabilities through fine-tuning, we generate a large-scale synthetic multi-view dataset to train a feed-forward 3D generative model. The proposed model, VFusion3D, trained on nearly 3M synthetic multi-view data, can generate a 3D asset from a single image in seconds and achieves superior performance when compared to current SOTA feed-forward 3D generative models, with users preferring our results over 70% of the time.

Summary

AI-Generated Summary

PDF62December 15, 2024