NVComposer: Steigerung der generativen neuartigen Ansichtssynthese mit mehreren spärlichen und ungestellten Bildern
NVComposer: Boosting Generative Novel View Synthesis with Multiple Sparse and Unposed Images
December 4, 2024
Autoren: Lingen Li, Zhaoyang Zhang, Yaowei Li, Jiale Xu, Xiaoyu Li, Wenbo Hu, Weihao Cheng, Jinwei Gu, Tianfan Xue, Ying Shan
cs.AI
Zusammenfassung
In jüngster Zeit haben Fortschritte in generativen Modellen die neuartige Ansichtssynthese (NVS) aus Multi-View-Daten erheblich verbessert. Allerdings sind bestehende Methoden auf externe Multi-View-Ausrichtungsprozesse angewiesen, wie z. B. explizite Posenabschätzung oder Vorrekonstruktion, was ihre Flexibilität und Zugänglichkeit einschränkt, insbesondere wenn die Ausrichtung aufgrund unzureichender Überlappung oder Verdeckungen zwischen den Ansichten instabil ist. In diesem Paper schlagen wir NVComposer vor, einen neuartigen Ansatz, der auf die Notwendigkeit expliziter externer Ausrichtung verzichtet. NVComposer ermöglicht es dem generativen Modell, räumliche und geometrische Beziehungen zwischen mehreren bedingten Ansichten implizit zu erschließen, indem zwei Schlüsselkomponenten eingeführt werden: 1) ein Bild-Posen-Dual-Stream-Diffusionsmodell, das gleichzeitig Ziel-Novel-Ansichten und bedingte Kameraposen generiert, und 2) ein geometriebewusstes Merkmal-Ausrichtungsmodul, das geometrische Prioritäten aus dichten Stereo-Modellen während des Trainings extrahiert. Umfangreiche Experimente zeigen, dass NVComposer eine Spitzenleistung bei generativen Multi-View-NVS-Aufgaben erreicht, indem die Abhängigkeit von externer Ausrichtung beseitigt wird und somit die Zugänglichkeit des Modells verbessert wird. Unser Ansatz zeigt signifikante Verbesserungen in der Synthesequalität mit zunehmender Anzahl von ungeordneten Eingabeansichten und unterstreicht sein Potenzial für flexiblere und zugänglichere generative NVS-Systeme.
English
Recent advancements in generative models have significantly improved novel
view synthesis (NVS) from multi-view data. However, existing methods depend on
external multi-view alignment processes, such as explicit pose estimation or
pre-reconstruction, which limits their flexibility and accessibility,
especially when alignment is unstable due to insufficient overlap or occlusions
between views. In this paper, we propose NVComposer, a novel approach that
eliminates the need for explicit external alignment. NVComposer enables the
generative model to implicitly infer spatial and geometric relationships
between multiple conditional views by introducing two key components: 1) an
image-pose dual-stream diffusion model that simultaneously generates target
novel views and condition camera poses, and 2) a geometry-aware feature
alignment module that distills geometric priors from dense stereo models during
training. Extensive experiments demonstrate that NVComposer achieves
state-of-the-art performance in generative multi-view NVS tasks, removing the
reliance on external alignment and thus improving model accessibility. Our
approach shows substantial improvements in synthesis quality as the number of
unposed input views increases, highlighting its potential for more flexible and
accessible generative NVS systems.Summary
AI-Generated Summary