ChatPaper.aiChatPaper

Удивительная страна: навигация в трехмерных сценах по одному изображению

Wonderland: Navigating 3D Scenes from a Single Image

December 16, 2024
Авторы: Hanwen Liang, Junli Cao, Vidit Goel, Guocheng Qian, Sergei Korolev, Demetri Terzopoulos, Konstantinos N. Plataniotis, Sergey Tulyakov, Jian Ren
cs.AI

Аннотация

Эта статья затрагивает сложный вопрос: как эффективно создавать трехмерные сцены высокого качества и широкого охвата из одного произвольного изображения? Существующие методы сталкиваются с несколькими ограничениями, такими как необходимость многократного просмотра данных, затратное оптимизирование для каждой сцены, низкое качество изображения в фонах и искаженные восстановления в невидимых областях. Мы предлагаем новый конвейер для преодоления этих ограничений. Конкретно, мы представляем модель реконструкции большого масштаба, которая использует латенты из модели диффузии видео для прогнозирования трехмерных гауссовых сплетений для сцен в прямом проходе. Модель диффузии видео разработана для создания видео, точно следуя указанным траекториям камеры, что позволяет ей генерировать сжатые видео-латенты, содержащие информацию с многих точек зрения, сохраняя при этом трехмерную согласованность. Мы обучаем модель трехмерной реконструкции работать в пространстве видео-латентов с прогрессивной стратегией обучения, обеспечивая эффективную генерацию трехмерных сцен высокого качества, широкого охвата и универсальности. Обширные оценки на различных наборах данных показывают, что наша модель значительно превосходит существующие методы для генерации трехмерных сцен с одним видом, особенно с изображениями вне области. Впервые мы демонстрируем, что модель трехмерной реконструкции может быть эффективно построена на латентном пространстве модели диффузии для реализации эффективной генерации трехмерных сцен.
English
This paper addresses a challenging question: How can we efficiently create high-quality, wide-scope 3D scenes from a single arbitrary image? Existing methods face several constraints, such as requiring multi-view data, time-consuming per-scene optimization, low visual quality in backgrounds, and distorted reconstructions in unseen areas. We propose a novel pipeline to overcome these limitations. Specifically, we introduce a large-scale reconstruction model that uses latents from a video diffusion model to predict 3D Gaussian Splattings for the scenes in a feed-forward manner. The video diffusion model is designed to create videos precisely following specified camera trajectories, allowing it to generate compressed video latents that contain multi-view information while maintaining 3D consistency. We train the 3D reconstruction model to operate on the video latent space with a progressive training strategy, enabling the efficient generation of high-quality, wide-scope, and generic 3D scenes. Extensive evaluations across various datasets demonstrate that our model significantly outperforms existing methods for single-view 3D scene generation, particularly with out-of-domain images. For the first time, we demonstrate that a 3D reconstruction model can be effectively built upon the latent space of a diffusion model to realize efficient 3D scene generation.

Summary

AI-Generated Summary

PDF162December 17, 2024