ChatPaper.aiChatPaper

NVComposer: Усиление генеративного синтеза новых видов с помощью нескольких разреженных и непозиционированных изображений

NVComposer: Boosting Generative Novel View Synthesis with Multiple Sparse and Unposed Images

December 4, 2024
Авторы: Lingen Li, Zhaoyang Zhang, Yaowei Li, Jiale Xu, Xiaoyu Li, Wenbo Hu, Weihao Cheng, Jinwei Gu, Tianfan Xue, Ying Shan
cs.AI

Аннотация

Недавние достижения в области генеративных моделей значительно улучшили синтез нового вида (NVS) из многовидовых данных. Однако существующие методы зависят от внешних процессов многовидового выравнивания, таких как явная оценка позы или предварительная реконструкция, что ограничивает их гибкость и доступность, особенно когда выравнивание нестабильно из-за недостаточного перекрытия или заслонений между видами. В данной статье мы предлагаем NVComposer, новый подход, который устраняет необходимость в явном внешнем выравнивании. NVComposer позволяет генеративной модели неявно выводить пространственные и геометрические отношения между несколькими условными видами, представляя два ключевых компонента: 1) модель диффузии изображения-позы с двойным потоком, которая одновременно генерирует целевые новые виды и позы камеры условий, и 2) модуль выравнивания признаков, осведомленный о геометрии, который извлекает геометрические априорные данные из плотных стереомоделей во время обучения. Обширные эксперименты показывают, что NVComposer достигает передового уровня производительности в задачах генеративного многовидового синтеза NVS, устраняя зависимость от внешнего выравнивания и таким образом улучшая доступность модели. Наш подход показывает существенное улучшение качества синтеза с увеличением количества неопределенных входных видов, подчеркивая его потенциал для более гибких и доступных генеративных систем NVS.
English
Recent advancements in generative models have significantly improved novel view synthesis (NVS) from multi-view data. However, existing methods depend on external multi-view alignment processes, such as explicit pose estimation or pre-reconstruction, which limits their flexibility and accessibility, especially when alignment is unstable due to insufficient overlap or occlusions between views. In this paper, we propose NVComposer, a novel approach that eliminates the need for explicit external alignment. NVComposer enables the generative model to implicitly infer spatial and geometric relationships between multiple conditional views by introducing two key components: 1) an image-pose dual-stream diffusion model that simultaneously generates target novel views and condition camera poses, and 2) a geometry-aware feature alignment module that distills geometric priors from dense stereo models during training. Extensive experiments demonstrate that NVComposer achieves state-of-the-art performance in generative multi-view NVS tasks, removing the reliance on external alignment and thus improving model accessibility. Our approach shows substantial improvements in synthesis quality as the number of unposed input views increases, highlighting its potential for more flexible and accessible generative NVS systems.

Summary

AI-Generated Summary

PDF193December 5, 2024