ChatPaper.aiChatPaper

GaMO : Recadrage par diffusion multi-vue sensible à la géométrie pour la reconstruction 3D à vues éparses

GaMO: Geometry-aware Multi-view Diffusion Outpainting for Sparse-View 3D Reconstruction

December 31, 2025
papers.authors: Yi-Chuan Huang, Hao-Jen Chien, Chin-Yang Lin, Ying-Huan Chen, Yu-Lun Liu
cs.AI

papers.abstract

Les progrès récents en reconstruction 3D ont accompli des avancées remarquables dans la capture de scènes de haute qualité à partir d'imagerie multi-vues dense, mais peinent lorsque les vues d'entrée sont limitées. Diverses approches, incluant des techniques de régularisation, des connaissances sémantiques a priori et des contraintes géométriques, ont été mises en œuvre pour relever ce défi. Les méthodes récentes basées sur la diffusion ont démontré des améliorations substantielles en générant de nouvelles vues à partir de poses de caméra inédites pour augmenter les données d'apprentissage, surpassant les techniques antérieures de régularisation et utilisant des connaissances a priori. Malgré ces progrès, nous identifions trois limitations critiques dans ces approches de pointe : une couverture inadéquate au-delà des périmètres des vues connues, des incohérences géométriques entre les vues générées et des chaînes de traitement numériquement coûteuses. Nous présentons GaMO (Geometry-aware Multi-view Outpainter), un cadre qui reformule la reconstruction à vues éparses via un agrandissement de champ multi-vues. Au lieu de générer de nouveaux points de vue, GaMO étend le champ de vision à partir des poses de caméra existantes, ce qui préserve intrinsèquement la cohérence géométrique tout en offrant une couverture plus large de la scène. Notre approche utilise de manière zero-shot un conditionnement multi-vues et des stratégies de débruitage sensibles à la géométrie, sans apprentissage préalable. Des expériences approfondies sur Replica et ScanNet++ démontrent une qualité de reconstruction à la pointe de l'état de l'art pour 3, 6 et 9 vues d'entrée, surpassant les méthodes précédentes en PSNR et LPIPS, tout en réalisant une accélération par 25 par rapport aux méthodes de pointe basées sur la diffusion, avec un temps de traitement inférieur à 10 minutes. Page du projet : https://yichuanh.github.io/GaMO/
English
Recent advances in 3D reconstruction have achieved remarkable progress in high-quality scene capture from dense multi-view imagery, yet struggle when input views are limited. Various approaches, including regularization techniques, semantic priors, and geometric constraints, have been implemented to address this challenge. Latest diffusion-based methods have demonstrated substantial improvements by generating novel views from new camera poses to augment training data, surpassing earlier regularization and prior-based techniques. Despite this progress, we identify three critical limitations in these state-of-the-art approaches: inadequate coverage beyond known view peripheries, geometric inconsistencies across generated views, and computationally expensive pipelines. We introduce GaMO (Geometry-aware Multi-view Outpainter), a framework that reformulates sparse-view reconstruction through multi-view outpainting. Instead of generating new viewpoints, GaMO expands the field of view from existing camera poses, which inherently preserves geometric consistency while providing broader scene coverage. Our approach employs multi-view conditioning and geometry-aware denoising strategies in a zero-shot manner without training. Extensive experiments on Replica and ScanNet++ demonstrate state-of-the-art reconstruction quality across 3, 6, and 9 input views, outperforming prior methods in PSNR and LPIPS, while achieving a 25times speedup over SOTA diffusion-based methods with processing time under 10 minutes. Project page: https://yichuanh.github.io/GaMO/
PDF211January 2, 2026