3DreamBooth: Ein Modell zur Erzeugung hochfidel 3D-Videos auf Basis vorgegebener Subjekte

Zusammenfassung

Die Erstellung dynamischer, blickkonsistenter Videos von individualisierten Objekten ist für eine Vielzahl neuartiger Anwendungen wie immersive VR/AR, virtuelle Produktion und E-Commerce der nächsten Generation stark nachgefragt. Trotz rascher Fortschritte bei der subjektgesteuerten Videogenerierung behandeln bestehende Methoden Objekte jedoch überwiegend als 2D-Entitäten und konzentrieren sich auf die Identitätsübertragung durch einansichtige visuelle Merkmale oder Textprompts. Da Objekte in der realen Welt inhärent 3D sind, offenbart die Anwendung dieser 2D-zentrierten Ansätze zur 3D-Objektindividualisierung eine grundlegende Einschränkung: Es mangelt ihnen an umfassenden räumlichen Priori-Informationen, die für die Rekonstruktion der 3D-Geometrie notwendig sind. Folglich müssen sie bei der Synthese neuartiger Blickwinkel auf die Generierung plausibler, aber beliebiger Details für nicht einsehbare Bereiche zurückgreifen, anstatt die tatsächliche 3D-Identität zu bewahren. Echte 3D-bewusste Individualisierung bleibt aufgrund der Knappheit an Multi-View-Videodatensätzen herausfordernd. Obwohl man Modelle auf begrenzten Videosequenzen feinabstimmen könnte, führt dies häufig zu temporalem Overfitting. Zur Lösung dieser Probleme stellen wir ein neuartiges Framework für 3D-bewusste Videoindividualisierung vor, bestehend aus 3DreamBooth und 3Dapter. 3DreamBooth entkoppelt räumliche Geometrie von temporaler Bewegung durch ein 1-Bild-Optimierungsparadigma. Durch die Beschränkung von Aktualisierungen auf räumliche Repräsentationen baut es effektiv ein robustes 3D-Prior in das Modell ein, ohne aufwendiges videobasiertes Training zu benötigen. Zur Verbesserung feinkörniger Texturen und Beschleunigung der Konvergenz integrieren wir 3Dapter, ein visuelles Konditionierungsmodul. Nach Einansichtsvortraining durchläuft 3Dapter eine Multi-View-Gemeinschaftsoptimierung mit dem Hauptgenerierungszweig über eine asymmetrische Konditionierungsstrategie. Dieses Design ermöglicht es dem Modul, als dynamischer selektiver Router zu agieren, der ansichtsspezifische geometrische Hinweise aus einem minimalen Referenzsatzes abfragt. Projektseite: https://ko-lani.github.io/3DreamBooth/

English

Creating dynamic, view-consistent videos of customized subjects is highly sought after for a wide range of emerging applications, including immersive VR/AR, virtual production, and next-generation e-commerce. However, despite rapid progress in subject-driven video generation, existing methods predominantly treat subjects as 2D entities, focusing on transferring identity through single-view visual features or textual prompts. Because real-world subjects are inherently 3D, applying these 2D-centric approaches to 3D object customization reveals a fundamental limitation: they lack the comprehensive spatial priors necessary to reconstruct the 3D geometry. Consequently, when synthesizing novel views, they must rely on generating plausible but arbitrary details for unseen regions, rather than preserving the true 3D identity. Achieving genuine 3D-aware customization remains challenging due to the scarcity of multi-view video datasets. While one might attempt to fine-tune models on limited video sequences, this often leads to temporal overfitting. To resolve these issues, we introduce a novel framework for 3D-aware video customization, comprising 3DreamBooth and 3Dapter. 3DreamBooth decouples spatial geometry from temporal motion through a 1-frame optimization paradigm. By restricting updates to spatial representations, it effectively bakes a robust 3D prior into the model without the need for exhaustive video-based training. To enhance fine-grained textures and accelerate convergence, we incorporate 3Dapter, a visual conditioning module. Following single-view pre-training, 3Dapter undergoes multi-view joint optimization with the main generation branch via an asymmetrical conditioning strategy. This design allows the module to act as a dynamic selective router, querying view-specific geometric hints from a minimal reference set. Project page: https://ko-lani.github.io/3DreamBooth/

3DreamBooth: Ein Modell zur Erzeugung hochfidel 3D-Videos auf Basis vorgegebener Subjekte

3DreamBooth: High-Fidelity 3D Subject-Driven Video Generation Model

Zusammenfassung

Support