NVComposer: Het verbeteren van generatieve novel view synthesis met meerdere schaarse en ongeposeerde afbeeldingen.
NVComposer: Boosting Generative Novel View Synthesis with Multiple Sparse and Unposed Images
December 4, 2024
Auteurs: Lingen Li, Zhaoyang Zhang, Yaowei Li, Jiale Xu, Xiaoyu Li, Wenbo Hu, Weihao Cheng, Jinwei Gu, Tianfan Xue, Ying Shan
cs.AI
Samenvatting
Recente ontwikkelingen in generatieve modellen hebben aanzienlijke verbeteringen gebracht in het synthetiseren van nieuwe weergaven (NVS) uit multi-view data. Bestaande methoden zijn echter afhankelijk van externe multi-view uitlijnprocessen, zoals expliciete pose schatting of pre-reconstructie, wat hun flexibiliteit en toegankelijkheid beperkt, vooral wanneer de uitlijning instabiel is door onvoldoende overlapping of occlusies tussen weergaven. In dit artikel stellen we NVComposer voor, een nieuwe benadering die de noodzaak voor expliciete externe uitlijning elimineert. NVComposer stelt het generatieve model in staat om impliciet ruimtelijke en geometrische relaties tussen meerdere conditionele weergaven af te leiden door twee sleutelelementen te introduceren: 1) een beeld-pose dual-stream diffusie model dat gelijktijdig doelnieuwe weergaven genereert en conditionele cameraposes, en 2) een geometrie-bewuste eigenschap uitlijningsmodule die geometrische aannames destilleert uit dichte stereo modellen tijdens training. Uitgebreide experimenten tonen aan dat NVComposer state-of-the-art prestaties behaalt in generatieve multi-view NVS taken, waarbij de afhankelijkheid van externe uitlijning wordt weggenomen en daarmee de toegankelijkheid van het model wordt verbeterd. Onze benadering toont aanzienlijke verbeteringen in synthese kwaliteit naarmate het aantal ongeposeerde invoerweergaven toeneemt, wat wijst op het potentieel voor meer flexibele en toegankelijke generatieve NVS systemen.
English
Recent advancements in generative models have significantly improved novel
view synthesis (NVS) from multi-view data. However, existing methods depend on
external multi-view alignment processes, such as explicit pose estimation or
pre-reconstruction, which limits their flexibility and accessibility,
especially when alignment is unstable due to insufficient overlap or occlusions
between views. In this paper, we propose NVComposer, a novel approach that
eliminates the need for explicit external alignment. NVComposer enables the
generative model to implicitly infer spatial and geometric relationships
between multiple conditional views by introducing two key components: 1) an
image-pose dual-stream diffusion model that simultaneously generates target
novel views and condition camera poses, and 2) a geometry-aware feature
alignment module that distills geometric priors from dense stereo models during
training. Extensive experiments demonstrate that NVComposer achieves
state-of-the-art performance in generative multi-view NVS tasks, removing the
reliance on external alignment and thus improving model accessibility. Our
approach shows substantial improvements in synthesis quality as the number of
unposed input views increases, highlighting its potential for more flexible and
accessible generative NVS systems.Summary
AI-Generated Summary