G-CUT3R: Geleide 3D-reconstructie met integratie van camera- en diepteprior
G-CUT3R: Guided 3D Reconstruction with Camera and Depth Prior Integration
August 15, 2025
Auteurs: Ramil Khafizov, Artem Komarichev, Ruslan Rakhimov, Peter Wonka, Evgeny Burnaev
cs.AI
Samenvatting
We introduceren G-CUT3R, een nieuwe feed-forward benadering voor geleide 3D-scène reconstructie die het CUT3R-model verbetert door het integreren van voorafgaande informatie. In tegenstelling tot bestaande feed-forward methoden die uitsluitend afhankelijk zijn van invoerbeelden, maakt onze methode gebruik van aanvullende gegevens, zoals diepte, camerakalibraties of cameraposities, die vaak beschikbaar zijn in real-world scenario's. We stellen een lichtgewicht aanpassing voor aan CUT3R, waarbij een specifieke encoder voor elke modaliteit wordt geïntegreerd om kenmerken te extraheren, die vervolgens worden samengevoegd met RGB-beeldtokens via nulconvolutie. Dit flexibele ontwerp maakt een naadloze integratie van elke combinatie van voorafgaande informatie tijdens inferentie mogelijk. Geëvalueerd over meerdere benchmarks, waaronder 3D-reconstructie en andere multi-view taken, toont onze benadering aanzienlijke prestatieverbeteringen, wat aantoont dat het in staat is om beschikbare priors effectief te benutten terwijl het compatibel blijft met verschillende invoermodaliteiten.
English
We introduce G-CUT3R, a novel feed-forward approach for guided 3D scene
reconstruction that enhances the CUT3R model by integrating prior information.
Unlike existing feed-forward methods that rely solely on input images, our
method leverages auxiliary data, such as depth, camera calibrations, or camera
positions, commonly available in real-world scenarios. We propose a lightweight
modification to CUT3R, incorporating a dedicated encoder for each modality to
extract features, which are fused with RGB image tokens via zero convolution.
This flexible design enables seamless integration of any combination of prior
information during inference. Evaluated across multiple benchmarks, including
3D reconstruction and other multi-view tasks, our approach demonstrates
significant performance improvements, showing its ability to effectively
utilize available priors while maintaining compatibility with varying input
modalities.