VideoScene: Verdichtung von Video-Diffusionsmodellen zur Generierung von 3D-Szenen in einem Schritt
VideoScene: Distilling Video Diffusion Model to Generate 3D Scenes in One Step
April 2, 2025
Autoren: Hanyang Wang, Fangfu Liu, Jiawei Chi, Yueqi Duan
cs.AI
Zusammenfassung
Die Rekonstruktion von 3D-Szenen aus spärlichen Ansichten ist aufgrund des inhärent schlecht gestellten Problems eine anspruchsvolle Aufgabe. Konventionelle Methoden haben spezialisierte Lösungen entwickelt (z. B. Geometrie-Regularisierung oder deterministische Feed-Forward-Modelle), um dieses Problem zu mildern. Dennoch leiden sie unter Leistungseinbußen bei minimaler Überlappung der Eingabeansichten mit unzureichenden visuellen Informationen. Glücklicherweise zeigen aktuelle Video-Generierungsmodelle Potenzial, diese Herausforderung zu bewältigen, da sie in der Lage sind, Videoclips mit plausiblen 3D-Strukturen zu erzeugen. Gestützt durch große vortrainierte Video-Diffusionsmodelle, beginnen einige wegweisende Forschungen, das Potenzial von Video-Generierungs-Priors zu erkunden und 3D-Szenen aus spärlichen Ansichten zu erstellen. Trotz beeindruckender Verbesserungen sind sie durch langsame Inferenzzeiten und das Fehlen von 3D-Beschränkungen eingeschränkt, was zu Ineffizienzen und Rekonstruktionsartefakten führt, die nicht mit der realen geometrischen Struktur übereinstimmen. In diesem Artikel schlagen wir VideoScene vor, um das Video-Diffusionsmodell zu destillieren und 3D-Szenen in einem Schritt zu generieren, mit dem Ziel, ein effizientes und effektives Werkzeug zu schaffen, das die Lücke zwischen Video und 3D schließt. Insbesondere entwerfen wir eine 3D-bewusste Leap-Flow-Destillationsstrategie, um zeitaufwändige redundante Informationen zu überspringen, und trainieren ein dynamisches Denoising-Policy-Netzwerk, um den optimalen Leap-Zeitschritt während der Inferenz adaptiv zu bestimmen. Umfangreiche Experimente zeigen, dass unser VideoScene schnellere und überlegene 3D-Szenengenerierungsergebnisse erzielt als bisherige Video-Diffusionsmodelle, was sein Potenzial als effizientes Werkzeug für zukünftige Video-zu-3D-Anwendungen unterstreicht. Projektseite: https://hanyang-21.github.io/VideoScene
English
Recovering 3D scenes from sparse views is a challenging task due to its
inherent ill-posed problem. Conventional methods have developed specialized
solutions (e.g., geometry regularization or feed-forward deterministic model)
to mitigate the issue. However, they still suffer from performance degradation
by minimal overlap across input views with insufficient visual information.
Fortunately, recent video generative models show promise in addressing this
challenge as they are capable of generating video clips with plausible 3D
structures. Powered by large pretrained video diffusion models, some pioneering
research start to explore the potential of video generative prior and create 3D
scenes from sparse views. Despite impressive improvements, they are limited by
slow inference time and the lack of 3D constraint, leading to inefficiencies
and reconstruction artifacts that do not align with real-world geometry
structure. In this paper, we propose VideoScene to distill the video diffusion
model to generate 3D scenes in one step, aiming to build an efficient and
effective tool to bridge the gap from video to 3D. Specifically, we design a
3D-aware leap flow distillation strategy to leap over time-consuming redundant
information and train a dynamic denoising policy network to adaptively
determine the optimal leap timestep during inference. Extensive experiments
demonstrate that our VideoScene achieves faster and superior 3D scene
generation results than previous video diffusion models, highlighting its
potential as an efficient tool for future video to 3D applications. Project
Page: https://hanyang-21.github.io/VideoSceneSummary
AI-Generated Summary