NVComposer : Amélioration de la synthèse de nouvelles vues génératives avec plusieurs images rares et non posées
NVComposer: Boosting Generative Novel View Synthesis with Multiple Sparse and Unposed Images
December 4, 2024
Auteurs: Lingen Li, Zhaoyang Zhang, Yaowei Li, Jiale Xu, Xiaoyu Li, Wenbo Hu, Weihao Cheng, Jinwei Gu, Tianfan Xue, Ying Shan
cs.AI
Résumé
Les récents progrès dans les modèles génératifs ont considérablement amélioré la synthèse de nouvelles vues (NVS) à partir de données multi-vues. Cependant, les méthodes existantes dépendent de processus externes d'alignement multi-vues, tels que l'estimation explicite de la pose ou la pré-reconstruction, ce qui limite leur flexibilité et leur accessibilité, notamment lorsque l'alignement est instable en raison d'un chevauchement insuffisant ou d'occlusions entre les vues. Dans cet article, nous proposons NVComposer, une nouvelle approche qui élimine le besoin d'un alignement externe explicite. NVComposer permet au modèle génératif d'inférer implicitement les relations spatiales et géométriques entre plusieurs vues conditionnelles en introduisant deux composants clés : 1) un modèle de diffusion à double flux image-pose qui génère simultanément des nouvelles vues cibles et les poses de caméra conditionnelles, et 2) un module d'alignement de caractéristiques conscient de la géométrie qui distille des connaissances géométriques à partir de modèles stéréo denses pendant l'entraînement. Des expériences approfondies démontrent que NVComposer atteint des performances de pointe dans les tâches génératives multi-vues NVS, en éliminant la dépendance à l'alignement externe et en améliorant ainsi l'accessibilité du modèle. Notre approche montre des améliorations substantielles dans la qualité de synthèse à mesure que le nombre de vues d'entrée non posées augmente, mettant en évidence son potentiel pour des systèmes NVS génératifs plus flexibles et accessibles.
English
Recent advancements in generative models have significantly improved novel
view synthesis (NVS) from multi-view data. However, existing methods depend on
external multi-view alignment processes, such as explicit pose estimation or
pre-reconstruction, which limits their flexibility and accessibility,
especially when alignment is unstable due to insufficient overlap or occlusions
between views. In this paper, we propose NVComposer, a novel approach that
eliminates the need for explicit external alignment. NVComposer enables the
generative model to implicitly infer spatial and geometric relationships
between multiple conditional views by introducing two key components: 1) an
image-pose dual-stream diffusion model that simultaneously generates target
novel views and condition camera poses, and 2) a geometry-aware feature
alignment module that distills geometric priors from dense stereo models during
training. Extensive experiments demonstrate that NVComposer achieves
state-of-the-art performance in generative multi-view NVS tasks, removing the
reliance on external alignment and thus improving model accessibility. Our
approach shows substantial improvements in synthesis quality as the number of
unposed input views increases, highlighting its potential for more flexible and
accessible generative NVS systems.Summary
AI-Generated Summary