ChatPaper.aiChatPaper

G-CUT3R: Reconstrucción 3D Guiada con Integración de Prior de Cámara y Profundidad

G-CUT3R: Guided 3D Reconstruction with Camera and Depth Prior Integration

August 15, 2025
Autores: Ramil Khafizov, Artem Komarichev, Ruslan Rakhimov, Peter Wonka, Evgeny Burnaev
cs.AI

Resumen

Presentamos G-CUT3R, un enfoque novedoso de avance directo para la reconstrucción guiada de escenas 3D que mejora el modelo CUT3R mediante la integración de información previa. A diferencia de los métodos de avance directo existentes que dependen únicamente de imágenes de entrada, nuestro método aprovecha datos auxiliares, como profundidad, calibraciones de cámara o posiciones de cámara, comúnmente disponibles en escenarios del mundo real. Proponemos una modificación ligera a CUT3R, incorporando un codificador dedicado para cada modalidad para extraer características, las cuales se fusionan con tokens de imágenes RGB mediante convolución cero. Este diseño flexible permite la integración sin problemas de cualquier combinación de información previa durante la inferencia. Evaluado en múltiples benchmarks, incluyendo reconstrucción 3D y otras tareas de múltiples vistas, nuestro enfoque demuestra mejoras significativas en el rendimiento, mostrando su capacidad para utilizar eficazmente los priores disponibles mientras mantiene la compatibilidad con diversas modalidades de entrada.
English
We introduce G-CUT3R, a novel feed-forward approach for guided 3D scene reconstruction that enhances the CUT3R model by integrating prior information. Unlike existing feed-forward methods that rely solely on input images, our method leverages auxiliary data, such as depth, camera calibrations, or camera positions, commonly available in real-world scenarios. We propose a lightweight modification to CUT3R, incorporating a dedicated encoder for each modality to extract features, which are fused with RGB image tokens via zero convolution. This flexible design enables seamless integration of any combination of prior information during inference. Evaluated across multiple benchmarks, including 3D reconstruction and other multi-view tasks, our approach demonstrates significant performance improvements, showing its ability to effectively utilize available priors while maintaining compatibility with varying input modalities.
PDF102August 19, 2025