Lite3R : Un cadre agnostique au modèle pour une reconstruction 3D feed-forward efficace

Résumé

La reconstruction 3D basée sur les transformeurs s’est imposée comme un paradigme puissant pour restituer la géométrie et l’apparence à partir d’observations multi-vues, offrant des performances élevées dans des conditions visuelles difficiles. Alors que ces modèles montent en échelle vers des architectures plus grandes et des entrées à plus haute résolution, améliorer leur efficacité devient crucial pour un déploiement pratique. Cependant, les pipelines modernes de transformeurs 3D rencontrent deux défis couplés : l’attention multi-vue dense génère un surcoût important de mélange de tokens, et l’exécution en basse précision peut déstabiliser les représentations sensibles à la géométrie, dégradant ainsi la profondeur, la pose et la cohérence 3D. Pour relever le premier défi, nous proposons Lite3R, un cadre enseignant-élève agnostique au modèle qui remplace l’attention dense par une attention linéaire éparse, préservant les interactions géométriques importantes tout en réduisant le coût de l’attention. Pour le second défi, nous introduisons une stratégie d’entraînement avec quantification consciente du FP8 (FP8-aware QAT) efficace en paramètres, associée à une distillation partielle de l’attention, qui gèle la grande majorité des paramètres pré-entraînés de l’architecture et n’entraîne que des couches de projection linéaires légères, permettant un déploiement stable en basse précision tout en conservant les connaissances géométriques pré-entraînées. Nous évaluons en outre Lite3R sur deux architectures représentatives, VGGT et DA3-Large, sur BlendedMVS et DTU64, montrant qu’il réduit substantiellement la latence (facteur 1,7 à 2,0) et l’utilisation mémoire (facteur 1,9 à 2,4) tout en maintenant globalement une qualité de reconstruction compétitive. Ces résultats démontrent que Lite3R offre une approche efficace de co-conception algorithme-système pour la reconstruction 3D pratique basée sur les transformeurs. Code : https://github.com/AIGeeksGroup/Lite3R. Site web : https://aigeeksgroup.github.io/Lite3R.

English

Transformer-based 3D reconstruction has emerged as a powerful paradigm for recovering geometry and appearance from multi-view observations, offering strong performance across challenging visual conditions. As these models scale to larger backbones and higher-resolution inputs, improving their efficiency becomes increasingly important for practical deployment. However, modern 3D transformer pipelines face two coupled challenges: dense multi-view attention creates substantial token-mixing overhead, and low-precision execution can destabilize geometry-sensitive representations and degrade depth, pose, and 3D consistency. To address the first challenge, we propose Lite3R, a model-agnostic teacher-student framework that replaces dense attention with Sparse Linear Attention to preserve important geometric interactions while reducing attention cost. To address the second challenge, we introduce a parameter-efficient FP8-aware quantization-aware training (FP8-aware QAT) strategy with partial attention distillation, which freezes the vast majority of pretrained backbone parameters and trains only lightweight linear-branch projection layers, enabling stable low-precision deployment while retaining pretrained geometric priors. We further evaluate Lite3R on two representative backbones, VGGT and DA3-Large, over BlendedMVS and DTU64, showing that it substantially reduces latency (1.7-2.0x) and memory usage (1.9-2.4x) while preserving competitive reconstruction quality overall. These results demonstrate that Lite3R provides an effective algorithm-system co-design approach for practical transformer-based 3D reconstruction. Code: https://github.com/AIGeeksGroup/Lite3R. Website: https://aigeeksgroup.github.io/Lite3R.

Lite3R : Un cadre agnostique au modèle pour une reconstruction 3D feed-forward efficace

Lite3R: A Model-Agnostic Framework for Efficient Feed-Forward 3D Reconstruction

Résumé

Support