VFusion3D: Schaalbare 3D-generatieve modellen leren van videodiffusiemodellen
VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models
March 18, 2024
Auteurs: Junlin Han, Filippos Kokkinos, Philip Torr
cs.AI
Samenvatting
Dit artikel introduceert een nieuw paradigma voor het bouwen van schaalbare 3D-generatieve modellen met behulp van vooraf getrainde video-diffusiemodellen. Het belangrijkste obstakel bij het ontwikkelen van fundamentele 3D-generatieve modellen is de beperkte beschikbaarheid van 3D-data. In tegenstelling tot afbeeldingen, teksten of video's zijn 3D-data niet gemakkelijk toegankelijk en moeilijk te verkrijgen. Dit resulteert in een aanzienlijk verschil in schaal vergeleken met de enorme hoeveelheden van andere soorten data. Om dit probleem aan te pakken, stellen we voor om een video-diffusiemodel, getraind met grote hoeveelheden tekst, afbeeldingen en video's, te gebruiken als kennisbron voor 3D-data. Door de multi-view generatieve mogelijkheden ervan te ontsluiten via fine-tuning, genereren we een grootschalige synthetische multi-view dataset om een feed-forward 3D-generatief model te trainen. Het voorgestelde model, VFusion3D, getraind op bijna 3 miljoen synthetische multi-view data, kan in enkele seconden een 3D-asset genereren vanuit een enkele afbeelding en behaalt superieure prestaties vergeleken met de huidige state-of-the-art feed-forward 3D-generatieve modellen, waarbij gebruikers onze resultaten in meer dan 70% van de gevallen verkiezen.
English
This paper presents a novel paradigm for building scalable 3D generative
models utilizing pre-trained video diffusion models. The primary obstacle in
developing foundation 3D generative models is the limited availability of 3D
data. Unlike images, texts, or videos, 3D data are not readily accessible and
are difficult to acquire. This results in a significant disparity in scale
compared to the vast quantities of other types of data. To address this issue,
we propose using a video diffusion model, trained with extensive volumes of
text, images, and videos, as a knowledge source for 3D data. By unlocking its
multi-view generative capabilities through fine-tuning, we generate a
large-scale synthetic multi-view dataset to train a feed-forward 3D generative
model. The proposed model, VFusion3D, trained on nearly 3M synthetic multi-view
data, can generate a 3D asset from a single image in seconds and achieves
superior performance when compared to current SOTA feed-forward 3D generative
models, with users preferring our results over 70% of the time.