G-CUT3R: Reconstrução 3D Guiada com Integração de Prior de Câmera e Profundidade
G-CUT3R: Guided 3D Reconstruction with Camera and Depth Prior Integration
August 15, 2025
Autores: Ramil Khafizov, Artem Komarichev, Ruslan Rakhimov, Peter Wonka, Evgeny Burnaev
cs.AI
Resumo
Apresentamos o G-CUT3R, uma nova abordagem feed-forward para reconstrução guiada de cenas 3D que aprimora o modelo CUT3R ao integrar informações prévias. Diferente dos métodos feed-forward existentes que dependem exclusivamente de imagens de entrada, nosso método aproveita dados auxiliares, como profundidade, calibrações de câmera ou posições de câmera, comumente disponíveis em cenários do mundo real. Propomos uma modificação leve ao CUT3R, incorporando um codificador dedicado para cada modalidade a fim de extrair características, que são fundidas com tokens de imagens RGB por meio de convolução zero. Esse design flexível permite a integração contínua de qualquer combinação de informações prévias durante a inferência. Avaliado em diversos benchmarks, incluindo reconstrução 3D e outras tarefas multi-visão, nossa abordagem demonstra melhorias significativas de desempenho, mostrando sua capacidade de utilizar efetivamente os priores disponíveis enquanto mantém compatibilidade com diferentes modalidades de entrada.
English
We introduce G-CUT3R, a novel feed-forward approach for guided 3D scene
reconstruction that enhances the CUT3R model by integrating prior information.
Unlike existing feed-forward methods that rely solely on input images, our
method leverages auxiliary data, such as depth, camera calibrations, or camera
positions, commonly available in real-world scenarios. We propose a lightweight
modification to CUT3R, incorporating a dedicated encoder for each modality to
extract features, which are fused with RGB image tokens via zero convolution.
This flexible design enables seamless integration of any combination of prior
information during inference. Evaluated across multiple benchmarks, including
3D reconstruction and other multi-view tasks, our approach demonstrates
significant performance improvements, showing its ability to effectively
utilize available priors while maintaining compatibility with varying input
modalities.