Lite3R: Un marco independiente del modelo para la reconstrucción 3D feed-forward eficiente

Resumen

La reconstrucción 3D basada en transformadores se ha consolidado como un paradigma potente para recuperar geometría y apariencia a partir de observaciones multivista, ofreciendo un rendimiento sólido en condiciones visuales desafiantes. A medida que estos modelos escalan hacia backbones más grandes y entradas de mayor resolución, mejorar su eficiencia resulta cada vez más crucial para su despliegue práctico. Sin embargo, los pipelines modernos de transformadores 3D enfrentan dos desafíos acoplados: la atención densa multivista genera una sobrecarga sustancial de mezcla de tokens, y la ejecución de baja precisión puede desestabilizar representaciones sensibles a la geometría, degradando la profundidad, la pose y la consistencia 3D. Para abordar el primer desafío, proponemos Lite3R, un marco maestro-alumno agnóstico al modelo que reemplaza la atención densa con Atención Lineal Dispersa (Sparse Linear Attention) para preservar interacciones geométricas importantes mientras reduce el costo de atención. Para el segundo desafío, introducimos una estrategia de entrenamiento consciente de cuantificación FP8 (FP8-aware QAT) eficiente en parámetros con destilación de atención parcial, que congela la gran mayoría de los parámetros del backbone preentrenado y entrena únicamente capas de proyección lineales ligeras, lo que permite un despliegue estable de baja precisión mientras retiene los conocimientos geométricos preentrenados. Además, evaluamos Lite3R en dos backbones representativos, VGGT y DA3-Large, sobre BlendedMVS y DTU64, mostrando que reduce sustancialmente la latencia (1.7–2.0×) y el uso de memoria (1.9–2.4×) al tiempo que preserva una calidad de reconstrucción competitiva en general. Estos resultados demuestran que Lite3R proporciona un enfoque efectivo de codiseño algoritmo-sistema para la reconstrucción 3D práctica basada en transformadores. Código: https://github.com/AIGeeksGroup/Lite3R. Sitio web: https://aigeeksgroup.github.io/Lite3R.

English

Transformer-based 3D reconstruction has emerged as a powerful paradigm for recovering geometry and appearance from multi-view observations, offering strong performance across challenging visual conditions. As these models scale to larger backbones and higher-resolution inputs, improving their efficiency becomes increasingly important for practical deployment. However, modern 3D transformer pipelines face two coupled challenges: dense multi-view attention creates substantial token-mixing overhead, and low-precision execution can destabilize geometry-sensitive representations and degrade depth, pose, and 3D consistency. To address the first challenge, we propose Lite3R, a model-agnostic teacher-student framework that replaces dense attention with Sparse Linear Attention to preserve important geometric interactions while reducing attention cost. To address the second challenge, we introduce a parameter-efficient FP8-aware quantization-aware training (FP8-aware QAT) strategy with partial attention distillation, which freezes the vast majority of pretrained backbone parameters and trains only lightweight linear-branch projection layers, enabling stable low-precision deployment while retaining pretrained geometric priors. We further evaluate Lite3R on two representative backbones, VGGT and DA3-Large, over BlendedMVS and DTU64, showing that it substantially reduces latency (1.7-2.0x) and memory usage (1.9-2.4x) while preserving competitive reconstruction quality overall. These results demonstrate that Lite3R provides an effective algorithm-system co-design approach for practical transformer-based 3D reconstruction. Code: https://github.com/AIGeeksGroup/Lite3R. Website: https://aigeeksgroup.github.io/Lite3R.

Lite3R: Un marco independiente del modelo para la reconstrucción 3D feed-forward eficiente

Lite3R: A Model-Agnostic Framework for Efficient Feed-Forward 3D Reconstruction

Resumen

Support