G-CUT3R: Geführte 3D-Rekonstruktion mit Integration von Kamera- und Tiefenpriorwissen
G-CUT3R: Guided 3D Reconstruction with Camera and Depth Prior Integration
August 15, 2025
papers.authors: Ramil Khafizov, Artem Komarichev, Ruslan Rakhimov, Peter Wonka, Evgeny Burnaev
cs.AI
papers.abstract
Wir stellen G-CUT3R vor, einen neuartigen Feed-Forward-Ansatz für die geführte 3D-Szenenrekonstruktion, der das CUT3R-Modell durch die Integration von Vorinformationen erweitert. Im Gegensatz zu bestehenden Feed-Forward-Methoden, die sich ausschließlich auf Eingabebilder verlassen, nutzt unser Ansatz zusätzliche Daten wie Tiefeninformationen, Kamerakalibrierungen oder Kamerapositionen, die in realen Szenarien häufig verfügbar sind. Wir schlagen eine leichtgewichtige Modifikation von CUT3R vor, bei der für jede Modalität ein dedizierter Encoder zur Merkmalsextraktion integriert wird. Diese Merkmale werden über Null-Faltung mit RGB-Bild-Tokens fusioniert. Dieses flexible Design ermöglicht die nahtlose Integration beliebiger Kombinationen von Vorinformationen während der Inferenz. In Evaluierungen über mehrere Benchmarks hinweg, einschließlich 3D-Rekonstruktion und anderen Multi-View-Aufgaben, zeigt unser Ansatz signifikante Leistungsverbesserungen und demonstriert seine Fähigkeit, verfügbare Prioritäten effektiv zu nutzen, während die Kompatibilität mit verschiedenen Eingabemodalitäten erhalten bleibt.
English
We introduce G-CUT3R, a novel feed-forward approach for guided 3D scene
reconstruction that enhances the CUT3R model by integrating prior information.
Unlike existing feed-forward methods that rely solely on input images, our
method leverages auxiliary data, such as depth, camera calibrations, or camera
positions, commonly available in real-world scenarios. We propose a lightweight
modification to CUT3R, incorporating a dedicated encoder for each modality to
extract features, which are fused with RGB image tokens via zero convolution.
This flexible design enables seamless integration of any combination of prior
information during inference. Evaluated across multiple benchmarks, including
3D reconstruction and other multi-view tasks, our approach demonstrates
significant performance improvements, showing its ability to effectively
utilize available priors while maintaining compatibility with varying input
modalities.