VideoScene: Video-diffusiemodel destilleren om 3D-scènes in één stap te genereren
VideoScene: Distilling Video Diffusion Model to Generate 3D Scenes in One Step
April 2, 2025
Auteurs: Hanyang Wang, Fangfu Liu, Jiawei Chi, Yueqi Duan
cs.AI
Samenvatting
Het reconstrueren van 3D-scènes uit beperkte aanzichten is een uitdagende taak vanwege het inherent slecht gestelde probleem. Traditionele methoden hebben gespecialiseerde oplossingen ontwikkeld (bijvoorbeeld geometrische regularisatie of feed-forward deterministische modellen) om dit probleem te verlichten. Echter, lijden ze nog steeds aan prestatieverlies door minimale overlap tussen de invoerbeelden met onvoldoende visuele informatie. Gelukkig tonen recente videogeneratieve modellen belofte in het aanpakken van deze uitdaging, omdat ze in staat zijn videoclips te genereren met plausibele 3D-structuren. Aangedreven door grote vooraf getrainde videodiffusiemodellen, beginnen enkele baanbrekende onderzoeken het potentieel van videogeneratieve voorkennis te verkennen en 3D-scènes te creëren uit beperkte aanzichten. Ondanks indrukwekkende verbeteringen, worden ze beperkt door trage inferentietijd en het ontbreken van 3D-beperkingen, wat leidt tot inefficiënties en reconstructie-artefacten die niet overeenkomen met de geometrische structuur van de echte wereld. In dit artikel stellen we VideoScene voor om het videodiffusiemodel te destilleren om in één stap 3D-scènes te genereren, met als doel een efficiënt en effectief hulpmiddel te bouwen om de kloof tussen video en 3D te overbruggen. Specifiek ontwerpen we een 3D-bewuste sprongstroomdestillatiestrategie om tijdrovende overbodige informatie over te slaan en trainen we een dynamisch denoiseringsbeleidsnetwerk om adaptief de optimale sprongtijdstap tijdens inferentie te bepalen. Uitgebreide experimenten tonen aan dat onze VideoScene snellere en superieure 3D-scènegeneratieresultaten bereikt dan eerdere videodiffusiemodellen, wat het potentieel ervan als een efficiënt hulpmiddel voor toekomstige video-naar-3D-toepassingen benadrukt. Projectpagina: https://hanyang-21.github.io/VideoScene
English
Recovering 3D scenes from sparse views is a challenging task due to its
inherent ill-posed problem. Conventional methods have developed specialized
solutions (e.g., geometry regularization or feed-forward deterministic model)
to mitigate the issue. However, they still suffer from performance degradation
by minimal overlap across input views with insufficient visual information.
Fortunately, recent video generative models show promise in addressing this
challenge as they are capable of generating video clips with plausible 3D
structures. Powered by large pretrained video diffusion models, some pioneering
research start to explore the potential of video generative prior and create 3D
scenes from sparse views. Despite impressive improvements, they are limited by
slow inference time and the lack of 3D constraint, leading to inefficiencies
and reconstruction artifacts that do not align with real-world geometry
structure. In this paper, we propose VideoScene to distill the video diffusion
model to generate 3D scenes in one step, aiming to build an efficient and
effective tool to bridge the gap from video to 3D. Specifically, we design a
3D-aware leap flow distillation strategy to leap over time-consuming redundant
information and train a dynamic denoising policy network to adaptively
determine the optimal leap timestep during inference. Extensive experiments
demonstrate that our VideoScene achieves faster and superior 3D scene
generation results than previous video diffusion models, highlighting its
potential as an efficient tool for future video to 3D applications. Project
Page: https://hanyang-21.github.io/VideoSceneSummary
AI-Generated Summary