ChatPaper.aiChatPaper

G-CUT3R: Управляемое 3D-реконструирование с интеграцией априорных данных камеры и глубины

G-CUT3R: Guided 3D Reconstruction with Camera and Depth Prior Integration

August 15, 2025
Авторы: Ramil Khafizov, Artem Komarichev, Ruslan Rakhimov, Peter Wonka, Evgeny Burnaev
cs.AI

Аннотация

Мы представляем G-CUT3R — новый подход с прямой передачей для управляемой реконструкции 3D-сцен, который улучшает модель CUT3R за счет интеграции априорной информации. В отличие от существующих методов с прямой передачей, которые полагаются исключительно на входные изображения, наш подход использует вспомогательные данные, такие как глубина, калибровки камер или позиции камер, которые обычно доступны в реальных сценариях. Мы предлагаем легковесную модификацию CUT3R, включающую отдельный кодировщик для каждого типа данных для извлечения признаков, которые объединяются с токенами RGB-изображений через нулевую свертку. Этот гибкий дизайн позволяет бесшовно интегрировать любую комбинацию априорной информации в процессе вывода. Оценка на множестве бенчмарков, включая задачи 3D-реконструкции и других многовидовых задач, демонстрирует значительное улучшение производительности, показывая способность эффективно использовать доступные априорные данные при сохранении совместимости с различными входными модальностями.
English
We introduce G-CUT3R, a novel feed-forward approach for guided 3D scene reconstruction that enhances the CUT3R model by integrating prior information. Unlike existing feed-forward methods that rely solely on input images, our method leverages auxiliary data, such as depth, camera calibrations, or camera positions, commonly available in real-world scenarios. We propose a lightweight modification to CUT3R, incorporating a dedicated encoder for each modality to extract features, which are fused with RGB image tokens via zero convolution. This flexible design enables seamless integration of any combination of prior information during inference. Evaluated across multiple benchmarks, including 3D reconstruction and other multi-view tasks, our approach demonstrates significant performance improvements, showing its ability to effectively utilize available priors while maintaining compatibility with varying input modalities.
PDF102August 19, 2025