ChatPaper.aiChatPaper

G-CUT3R : Reconstruction 3D guidée avec intégration de préalables de caméra et de profondeur

G-CUT3R: Guided 3D Reconstruction with Camera and Depth Prior Integration

August 15, 2025
papers.authors: Ramil Khafizov, Artem Komarichev, Ruslan Rakhimov, Peter Wonka, Evgeny Burnaev
cs.AI

papers.abstract

Nous présentons G-CUT3R, une nouvelle approche feed-forward pour la reconstruction guidée de scènes 3D qui améliore le modèle CUT3R en intégrant des informations a priori. Contrairement aux méthodes feed-forward existantes qui reposent uniquement sur des images d'entrée, notre méthode exploite des données auxiliaires, telles que la profondeur, les calibrations de caméra ou les positions de caméra, couramment disponibles dans des scénarios réels. Nous proposons une modification légère de CUT3R, intégrant un encodeur dédié pour chaque modalité afin d'extraire des caractéristiques, qui sont fusionnées avec les tokens d'images RGB via une convolution nulle. Cette conception flexible permet une intégration transparente de toute combinaison d'informations a priori lors de l'inférence. Évaluée sur plusieurs benchmarks, incluant la reconstruction 3D et d'autres tâches multi-vues, notre approche démontre des améliorations significatives de performance, montrant sa capacité à exploiter efficacement les informations a priori disponibles tout en maintenant une compatibilité avec diverses modalités d'entrée.
English
We introduce G-CUT3R, a novel feed-forward approach for guided 3D scene reconstruction that enhances the CUT3R model by integrating prior information. Unlike existing feed-forward methods that rely solely on input images, our method leverages auxiliary data, such as depth, camera calibrations, or camera positions, commonly available in real-world scenarios. We propose a lightweight modification to CUT3R, incorporating a dedicated encoder for each modality to extract features, which are fused with RGB image tokens via zero convolution. This flexible design enables seamless integration of any combination of prior information during inference. Evaluated across multiple benchmarks, including 3D reconstruction and other multi-view tasks, our approach demonstrates significant performance improvements, showing its ability to effectively utilize available priors while maintaining compatibility with varying input modalities.
PDF102August 19, 2025