G-CUT3R : Reconstruction 3D guidée avec intégration de préalables de caméra et de profondeur
G-CUT3R: Guided 3D Reconstruction with Camera and Depth Prior Integration
August 15, 2025
papers.authors: Ramil Khafizov, Artem Komarichev, Ruslan Rakhimov, Peter Wonka, Evgeny Burnaev
cs.AI
papers.abstract
Nous présentons G-CUT3R, une nouvelle approche feed-forward pour la reconstruction guidée de scènes 3D qui améliore le modèle CUT3R en intégrant des informations a priori. Contrairement aux méthodes feed-forward existantes qui reposent uniquement sur des images d'entrée, notre méthode exploite des données auxiliaires, telles que la profondeur, les calibrations de caméra ou les positions de caméra, couramment disponibles dans des scénarios réels. Nous proposons une modification légère de CUT3R, intégrant un encodeur dédié pour chaque modalité afin d'extraire des caractéristiques, qui sont fusionnées avec les tokens d'images RGB via une convolution nulle. Cette conception flexible permet une intégration transparente de toute combinaison d'informations a priori lors de l'inférence. Évaluée sur plusieurs benchmarks, incluant la reconstruction 3D et d'autres tâches multi-vues, notre approche démontre des améliorations significatives de performance, montrant sa capacité à exploiter efficacement les informations a priori disponibles tout en maintenant une compatibilité avec diverses modalités d'entrée.
English
We introduce G-CUT3R, a novel feed-forward approach for guided 3D scene
reconstruction that enhances the CUT3R model by integrating prior information.
Unlike existing feed-forward methods that rely solely on input images, our
method leverages auxiliary data, such as depth, camera calibrations, or camera
positions, commonly available in real-world scenarios. We propose a lightweight
modification to CUT3R, incorporating a dedicated encoder for each modality to
extract features, which are fused with RGB image tokens via zero convolution.
This flexible design enables seamless integration of any combination of prior
information during inference. Evaluated across multiple benchmarks, including
3D reconstruction and other multi-view tasks, our approach demonstrates
significant performance improvements, showing its ability to effectively
utilize available priors while maintaining compatibility with varying input
modalities.