ChatPaper.aiChatPaper

Pays des Merveilles : Navigation dans des scènes 3D à partir d'une seule image

Wonderland: Navigating 3D Scenes from a Single Image

December 16, 2024
Auteurs: Hanwen Liang, Junli Cao, Vidit Goel, Guocheng Qian, Sergei Korolev, Demetri Terzopoulos, Konstantinos N. Plataniotis, Sergey Tulyakov, Jian Ren
cs.AI

Résumé

Cet article aborde une question complexe : comment pouvons-nous créer efficacement des scènes 3D de haute qualité et à large spectre à partir d'une seule image arbitraire ? Les méthodes existantes sont confrontées à plusieurs contraintes, telles que le besoin de données multi-vues, une optimisation par scène chronophage, une faible qualité visuelle des arrière-plans et des reconstructions déformées dans les zones non vues. Nous proposons un nouveau processus pour surmonter ces limitations. Plus précisément, nous introduisons un modèle de reconstruction à grande échelle qui utilise des latents d'un modèle de diffusion vidéo pour prédire des étalements gaussiens 3D pour les scènes de manière feed-forward. Le modèle de diffusion vidéo est conçu pour créer des vidéos suivant précisément des trajectoires de caméra spécifiées, lui permettant de générer des latents vidéo compressés contenant des informations multi-vues tout en maintenant une cohérence 3D. Nous entraînons le modèle de reconstruction 3D à opérer dans l'espace latent vidéo avec une stratégie d'entraînement progressive, permettant la génération efficace de scènes 3D de haute qualité, à large spectre et génériques. Des évaluations approfondies sur divers ensembles de données démontrent que notre modèle surpasse significativement les méthodes existantes pour la génération de scènes 3D à partir d'une seule vue, notamment avec des images hors domaine. Pour la première fois, nous démontrons qu'un modèle de reconstruction 3D peut être efficacement construit sur l'espace latent d'un modèle de diffusion pour réaliser une génération efficace de scènes 3D.
English
This paper addresses a challenging question: How can we efficiently create high-quality, wide-scope 3D scenes from a single arbitrary image? Existing methods face several constraints, such as requiring multi-view data, time-consuming per-scene optimization, low visual quality in backgrounds, and distorted reconstructions in unseen areas. We propose a novel pipeline to overcome these limitations. Specifically, we introduce a large-scale reconstruction model that uses latents from a video diffusion model to predict 3D Gaussian Splattings for the scenes in a feed-forward manner. The video diffusion model is designed to create videos precisely following specified camera trajectories, allowing it to generate compressed video latents that contain multi-view information while maintaining 3D consistency. We train the 3D reconstruction model to operate on the video latent space with a progressive training strategy, enabling the efficient generation of high-quality, wide-scope, and generic 3D scenes. Extensive evaluations across various datasets demonstrate that our model significantly outperforms existing methods for single-view 3D scene generation, particularly with out-of-domain images. For the first time, we demonstrate that a 3D reconstruction model can be effectively built upon the latent space of a diffusion model to realize efficient 3D scene generation.

Summary

AI-Generated Summary

PDF162December 17, 2024