G-CUT3R: Ricostruzione 3D Guidata con Integrazione di Priorità di Fotocamera e Profondità
G-CUT3R: Guided 3D Reconstruction with Camera and Depth Prior Integration
August 15, 2025
Autori: Ramil Khafizov, Artem Komarichev, Ruslan Rakhimov, Peter Wonka, Evgeny Burnaev
cs.AI
Abstract
Presentiamo G-CUT3R, un nuovo approccio feed-forward per la ricostruzione guidata di scene 3D che migliora il modello CUT3R integrando informazioni a priori. A differenza dei metodi feed-forward esistenti che si basano esclusivamente sulle immagini di input, il nostro metodo sfrutta dati ausiliari, come profondità, calibrazioni della fotocamera o posizioni della fotocamera, comunemente disponibili in scenari reali. Proponiamo una modifica leggera a CUT3R, incorporando un encoder dedicato per ogni modalità per estrarre caratteristiche, che vengono fuse con i token delle immagini RGB tramite convoluzione zero. Questo design flessibile consente l'integrazione senza soluzione di continuità di qualsiasi combinazione di informazioni a priori durante l'inferenza. Valutato su più benchmark, inclusi la ricostruzione 3D e altre attività multi-vista, il nostro approccio dimostra miglioramenti significativi delle prestazioni, mostrando la sua capacità di utilizzare efficacemente i priori disponibili mantenendo la compatibilità con diverse modalità di input.
English
We introduce G-CUT3R, a novel feed-forward approach for guided 3D scene
reconstruction that enhances the CUT3R model by integrating prior information.
Unlike existing feed-forward methods that rely solely on input images, our
method leverages auxiliary data, such as depth, camera calibrations, or camera
positions, commonly available in real-world scenarios. We propose a lightweight
modification to CUT3R, incorporating a dedicated encoder for each modality to
extract features, which are fused with RGB image tokens via zero convolution.
This flexible design enables seamless integration of any combination of prior
information during inference. Evaluated across multiple benchmarks, including
3D reconstruction and other multi-view tasks, our approach demonstrates
significant performance improvements, showing its ability to effectively
utilize available priors while maintaining compatibility with varying input
modalities.