NVComposer: Impulsionando a Síntese de Novas Visualizações Generativas com Múltiplas Imagens Esparsas e Não Posadas
NVComposer: Boosting Generative Novel View Synthesis with Multiple Sparse and Unposed Images
December 4, 2024
Autores: Lingen Li, Zhaoyang Zhang, Yaowei Li, Jiale Xu, Xiaoyu Li, Wenbo Hu, Weihao Cheng, Jinwei Gu, Tianfan Xue, Ying Shan
cs.AI
Resumo
Avanços recentes em modelos generativos têm melhorado significativamente a síntese de novas visualizações (NVS) a partir de dados de múltiplas visualizações. No entanto, os métodos existentes dependem de processos externos de alinhamento de múltiplas visualizações, como estimativa explícita de pose ou pré-reconstrução, o que limita sua flexibilidade e acessibilidade, especialmente quando o alinhamento é instável devido a sobreposição insuficiente ou oclusões entre as visualizações. Neste artigo, propomos o NVComposer, uma abordagem inovadora que elimina a necessidade de alinhamento externo explícito. O NVComposer permite que o modelo generativo infira implicitamente as relações espaciais e geométricas entre múltiplas visualizações condicionais, introduzindo dois componentes-chave: 1) um modelo de difusão de duplo fluxo de imagem-pose que gera simultaneamente novas visualizações-alvo e poses de câmera condicionais, e 2) um módulo de alinhamento de características consciente da geometria que destila prioridades geométricas de modelos estéreo densos durante o treinamento. Experimentos extensivos demonstram que o NVComposer alcança desempenho de ponta em tarefas generativas de NVS de múltiplas visualizações, eliminando a dependência de alinhamento externo e, assim, melhorando a acessibilidade do modelo. Nossa abordagem mostra melhorias substanciais na qualidade de síntese à medida que o número de visualizações de entrada não posicionadas aumenta, destacando seu potencial para sistemas generativos de NVS mais flexíveis e acessíveis.
English
Recent advancements in generative models have significantly improved novel
view synthesis (NVS) from multi-view data. However, existing methods depend on
external multi-view alignment processes, such as explicit pose estimation or
pre-reconstruction, which limits their flexibility and accessibility,
especially when alignment is unstable due to insufficient overlap or occlusions
between views. In this paper, we propose NVComposer, a novel approach that
eliminates the need for explicit external alignment. NVComposer enables the
generative model to implicitly infer spatial and geometric relationships
between multiple conditional views by introducing two key components: 1) an
image-pose dual-stream diffusion model that simultaneously generates target
novel views and condition camera poses, and 2) a geometry-aware feature
alignment module that distills geometric priors from dense stereo models during
training. Extensive experiments demonstrate that NVComposer achieves
state-of-the-art performance in generative multi-view NVS tasks, removing the
reliance on external alignment and thus improving model accessibility. Our
approach shows substantial improvements in synthesis quality as the number of
unposed input views increases, highlighting its potential for more flexible and
accessible generative NVS systems.Summary
AI-Generated Summary