3DreamBooth: Modelo de Geração de Vídeo 3D de Alta Fidelidade Orientado a Assuntos

Resumo

A criação de vídeos dinâmicos e visualmente consistentes de objetos personalizados é altamente desejada para uma ampla gama de aplicações emergentes, incluindo VR/AR imersiva, produção virtual e comércio eletrónico de próxima geração. No entanto, apesar do rápido progresso na geração de vídeos orientada por objetos, os métodos existentes tratam predominantemente os objetos como entidades 2D, concentrando-se na transferência de identidade através de características visuais de vista única ou instruções textuais. Como os objetos do mundo real são inerentemente 3D, a aplicação destas abordagens centradas em 2D à personalização de objetos 3D revela uma limitação fundamental: falta-lhes os conhecimentos espaciais abrangentes necessários para reconstruir a geometria 3D. Consequentemente, ao sintetizar novos pontos de vista, estes métodos têm de depender da geração de detalhes plausíveis, mas arbitrários, para regiões não visíveis, em vez de preservar a verdadeira identidade 3D. Atingir uma personalização genuinamente consciente da 3D continua a ser um desafio devido à escassez de conjuntos de dados de vídeo multivista. Embora se possa tentar ajustar modelos em sequências de vídeo limitadas, isto frequentemente leva a um sobre-ajustamento temporal. Para resolver estas questões, introduzimos uma nova estrutura para personalização de vídeo consciente da 3D, composta por 3DreamBooth e 3Dapter. O 3DreamBooth desacopla a geometria espacial do movimento temporal através de um paradigma de otimização de 1 fotograma. Ao restringir as atualizações às representações espaciais, ele efetivamente incorpora um conhecimento prévio 3D robusto no modelo sem a necessidade de um treino exaustivo baseado em vídeo. Para melhorar as texturas de alto detalhe e acelerar a convergência, incorporamos o 3Dapter, um módulo de condicionamento visual. Após o pré-treino de vista única, o 3Dapter sofre uma otimização conjunta multivista com o ramo principal de geração através de uma estratégia de condicionamento assimétrica. Este projeto permite que o módulo atue como um router seletivo dinâmico, consultando pistas geométricas específicas da vista a partir de um conjunto de referência mínimo. Página do projeto: https://ko-lani.github.io/3DreamBooth/

English

Creating dynamic, view-consistent videos of customized subjects is highly sought after for a wide range of emerging applications, including immersive VR/AR, virtual production, and next-generation e-commerce. However, despite rapid progress in subject-driven video generation, existing methods predominantly treat subjects as 2D entities, focusing on transferring identity through single-view visual features or textual prompts. Because real-world subjects are inherently 3D, applying these 2D-centric approaches to 3D object customization reveals a fundamental limitation: they lack the comprehensive spatial priors necessary to reconstruct the 3D geometry. Consequently, when synthesizing novel views, they must rely on generating plausible but arbitrary details for unseen regions, rather than preserving the true 3D identity. Achieving genuine 3D-aware customization remains challenging due to the scarcity of multi-view video datasets. While one might attempt to fine-tune models on limited video sequences, this often leads to temporal overfitting. To resolve these issues, we introduce a novel framework for 3D-aware video customization, comprising 3DreamBooth and 3Dapter. 3DreamBooth decouples spatial geometry from temporal motion through a 1-frame optimization paradigm. By restricting updates to spatial representations, it effectively bakes a robust 3D prior into the model without the need for exhaustive video-based training. To enhance fine-grained textures and accelerate convergence, we incorporate 3Dapter, a visual conditioning module. Following single-view pre-training, 3Dapter undergoes multi-view joint optimization with the main generation branch via an asymmetrical conditioning strategy. This design allows the module to act as a dynamic selective router, querying view-specific geometric hints from a minimal reference set. Project page: https://ko-lani.github.io/3DreamBooth/

3DreamBooth: Modelo de Geração de Vídeo 3D de Alta Fidelidade Orientado a Assuntos

3DreamBooth: High-Fidelity 3D Subject-Driven Video Generation Model

Resumo

Support