3DreamBooth: Modello di Generazione Video 3D ad Alta Fedeltà Basato su Soggetto

Abstract

La creazione di video dinamici e coerenti dal punto di vista visivo di soggetti personalizzati è fortemente richiesta per una vasta gamma di applicazioni emergenti, tra cui la realtà virtuale/aumentata immersiva, la produzione virtuale e il commercio elettronico di nuova generazione. Tuttavia, nonostante i rapidi progressi nella generazione di video guidata da soggetti, i metodi esistenti trattano prevalentemente i soggetti come entità 2D, concentrandosi sul trasferimento dell'identità attraverso caratteristiche visive monoculari o prompt testuali. Poiché i soggetti del mondo reale sono intrinsecamente 3D, l'applicazione di questi approcci centrati sul 2D alla personalizzazione di oggetti 3D rivela una limitazione fondamentale: essi mancano dei priors spaziali completi necessari per ricostruire la geometria 3D. Di conseguenza, quando sintetizzano nuove visuali, devono fare affidamento sulla generazione di dettagli plausibili ma arbitrari per le regioni non visibili, piuttosto che preservare la vera identità 3D. Raggiungere una personalizzazione autenticamente consapevole del 3D rimane impegnativo a causa della scarsità di dataset video multi-vista. Sebbene si possa tentare di effettuare un fine-tuning dei modelli su sequenze video limitate, questo spesso porta a un overfitting temporale. Per risolvere questi problemi, introduciamo un nuovo framework per la personalizzazione video consapevole del 3D, composto da 3DreamBooth e 3Dapter. 3DreamBooth disaccoppia la geometria spaziale dal movimento temporale attraverso un paradigma di ottimizzazione a 1 fotogramma. Limitando gli aggiornamenti alle rappresentazioni spaziali, integra efficacemente un priors 3D robusto nel modello senza la necessità di un training esaustivo basato su video. Per migliorare le texture fini e accelerare la convergenza, incorporiamo 3Dapter, un modulo di condizionamento visivo. Dopo un pre-training monoculare, 3Dapter subisce un'ottimizzazione congiunta multi-vista con il ramo principale di generazione attraverso una strategia di condizionamento asimmetrico. Questo design consente al modulo di agire come un router selettivo dinamico, interrogando suggerimenti geometrici specifici per la vista da un insieme di riferimento minimo. Pagina del progetto: https://ko-lani.github.io/3DreamBooth/

English

Creating dynamic, view-consistent videos of customized subjects is highly sought after for a wide range of emerging applications, including immersive VR/AR, virtual production, and next-generation e-commerce. However, despite rapid progress in subject-driven video generation, existing methods predominantly treat subjects as 2D entities, focusing on transferring identity through single-view visual features or textual prompts. Because real-world subjects are inherently 3D, applying these 2D-centric approaches to 3D object customization reveals a fundamental limitation: they lack the comprehensive spatial priors necessary to reconstruct the 3D geometry. Consequently, when synthesizing novel views, they must rely on generating plausible but arbitrary details for unseen regions, rather than preserving the true 3D identity. Achieving genuine 3D-aware customization remains challenging due to the scarcity of multi-view video datasets. While one might attempt to fine-tune models on limited video sequences, this often leads to temporal overfitting. To resolve these issues, we introduce a novel framework for 3D-aware video customization, comprising 3DreamBooth and 3Dapter. 3DreamBooth decouples spatial geometry from temporal motion through a 1-frame optimization paradigm. By restricting updates to spatial representations, it effectively bakes a robust 3D prior into the model without the need for exhaustive video-based training. To enhance fine-grained textures and accelerate convergence, we incorporate 3Dapter, a visual conditioning module. Following single-view pre-training, 3Dapter undergoes multi-view joint optimization with the main generation branch via an asymmetrical conditioning strategy. This design allows the module to act as a dynamic selective router, querying view-specific geometric hints from a minimal reference set. Project page: https://ko-lani.github.io/3DreamBooth/

3DreamBooth: Modello di Generazione Video 3D ad Alta Fedeltà Basato su Soggetto

3DreamBooth: High-Fidelity 3D Subject-Driven Video Generation Model

Abstract

Support