ChatPaper.aiChatPaper

G-CUT3R: Geführte 3D-Rekonstruktion mit Integration von Kamera- und Tiefenpriorwissen

G-CUT3R: Guided 3D Reconstruction with Camera and Depth Prior Integration

August 15, 2025
papers.authors: Ramil Khafizov, Artem Komarichev, Ruslan Rakhimov, Peter Wonka, Evgeny Burnaev
cs.AI

papers.abstract

Wir stellen G-CUT3R vor, einen neuartigen Feed-Forward-Ansatz für die geführte 3D-Szenenrekonstruktion, der das CUT3R-Modell durch die Integration von Vorinformationen erweitert. Im Gegensatz zu bestehenden Feed-Forward-Methoden, die sich ausschließlich auf Eingabebilder verlassen, nutzt unser Ansatz zusätzliche Daten wie Tiefeninformationen, Kamerakalibrierungen oder Kamerapositionen, die in realen Szenarien häufig verfügbar sind. Wir schlagen eine leichtgewichtige Modifikation von CUT3R vor, bei der für jede Modalität ein dedizierter Encoder zur Merkmalsextraktion integriert wird. Diese Merkmale werden über Null-Faltung mit RGB-Bild-Tokens fusioniert. Dieses flexible Design ermöglicht die nahtlose Integration beliebiger Kombinationen von Vorinformationen während der Inferenz. In Evaluierungen über mehrere Benchmarks hinweg, einschließlich 3D-Rekonstruktion und anderen Multi-View-Aufgaben, zeigt unser Ansatz signifikante Leistungsverbesserungen und demonstriert seine Fähigkeit, verfügbare Prioritäten effektiv zu nutzen, während die Kompatibilität mit verschiedenen Eingabemodalitäten erhalten bleibt.
English
We introduce G-CUT3R, a novel feed-forward approach for guided 3D scene reconstruction that enhances the CUT3R model by integrating prior information. Unlike existing feed-forward methods that rely solely on input images, our method leverages auxiliary data, such as depth, camera calibrations, or camera positions, commonly available in real-world scenarios. We propose a lightweight modification to CUT3R, incorporating a dedicated encoder for each modality to extract features, which are fused with RGB image tokens via zero convolution. This flexible design enables seamless integration of any combination of prior information during inference. Evaluated across multiple benchmarks, including 3D reconstruction and other multi-view tasks, our approach demonstrates significant performance improvements, showing its ability to effectively utilize available priors while maintaining compatibility with varying input modalities.
PDF102August 19, 2025