Lite3R: Модельно-независимый фреймворк для эффективной трехмерной реконструкции прямого распространения

Аннотация

Трехмерная реконструкция на основе трансформеров стала мощной парадигмой для восстановления геометрии и внешнего вида по многовидовым наблюдениям, обеспечивая высокую производительность в сложных визуальных условиях. По мере масштабирования этих моделей до более крупных магистралей и входных данных с более высоким разрешением повышение их эффективности становится всё более важным для практического развертывания. Однако современные конвейеры трехмерных трансформеров сталкиваются с двумя взаимосвязанными проблемами: плотное многовидовое внимание создает значительные накладные расходы на смешивание токенов, а выполнение с низкой точностью может дестабилизировать чувствительные к геометрии представления и ухудшить глубину, позу и трехмерную согласованность. Для решения первой проблемы мы предлагаем Lite3R — модельно-агностическую структуру «учитель-ученик», которая заменяет плотное внимание разреженным линейным вниманием, чтобы сохранить важные геометрические взаимодействия при снижении затрат на внимание. Для решения второй проблемы мы внедряем параметро-эффективную стратегию обучения с учетом квантования FP8 (FP8-aware QAT) с частичной дистилляцией внимания, которая замораживает подавляющее большинство параметров предварительно обученной магистрали и обучает только легкие проекционные слои линейной ветви, что обеспечивает стабильное развертывание с низкой точностью при сохранении предварительно обученных геометрических априорных знаний. Мы дополнительно оцениваем Lite3R на двух репрезентативных магистралях, VGGT и DA3-Large, на наборах данных BlendedMVS и DTU64, показывая, что он существенно снижает задержку (в 1,7–2,0 раза) и использование памяти (в 1,9–2,4 раза) при сохранении конкурентоспособного качества реконструкции в целом. Эти результаты демонстрируют, что Lite3R предлагает эффективный подход к совместному проектированию алгоритмов и систем для практической трехмерной реконструкции на основе трансформеров. Код: https://github.com/AIGeeksGroup/Lite3R. Сайт: https://aigeeksgroup.github.io/Lite3R.

English

Transformer-based 3D reconstruction has emerged as a powerful paradigm for recovering geometry and appearance from multi-view observations, offering strong performance across challenging visual conditions. As these models scale to larger backbones and higher-resolution inputs, improving their efficiency becomes increasingly important for practical deployment. However, modern 3D transformer pipelines face two coupled challenges: dense multi-view attention creates substantial token-mixing overhead, and low-precision execution can destabilize geometry-sensitive representations and degrade depth, pose, and 3D consistency. To address the first challenge, we propose Lite3R, a model-agnostic teacher-student framework that replaces dense attention with Sparse Linear Attention to preserve important geometric interactions while reducing attention cost. To address the second challenge, we introduce a parameter-efficient FP8-aware quantization-aware training (FP8-aware QAT) strategy with partial attention distillation, which freezes the vast majority of pretrained backbone parameters and trains only lightweight linear-branch projection layers, enabling stable low-precision deployment while retaining pretrained geometric priors. We further evaluate Lite3R on two representative backbones, VGGT and DA3-Large, over BlendedMVS and DTU64, showing that it substantially reduces latency (1.7-2.0x) and memory usage (1.9-2.4x) while preserving competitive reconstruction quality overall. These results demonstrate that Lite3R provides an effective algorithm-system co-design approach for practical transformer-based 3D reconstruction. Code: https://github.com/AIGeeksGroup/Lite3R. Website: https://aigeeksgroup.github.io/Lite3R.

Lite3R: Модельно-независимый фреймворк для эффективной трехмерной реконструкции прямого распространения

Lite3R: A Model-Agnostic Framework for Efficient Feed-Forward 3D Reconstruction

Аннотация

Support