Lite3R: Ein modellagnostisches Framework für effiziente vorwärtsgerichtete 3D-Rekonstruktion
Lite3R: A Model-Agnostic Framework for Efficient Feed-Forward 3D Reconstruction
May 12, 2026
Autoren: Haoyu Zhang, Zeyu Zhang, Zedong Zhou, Yang Zhao, Hao Tang
cs.AI
Zusammenfassung
Transformer-basierte 3D-Rekonstruktion hat sich als leistungsstarkes Paradigma zur Wiederherstellung von Geometrie und Erscheinungsbild aus Multi-View-Beobachtungen etabliert und bietet eine hohe Leistungsfähigkeit unter anspruchsvollen visuellen Bedingungen. Da diese Modelle auf größere Backbones und höhere Eingabeauflösungen skaliert werden, gewinnt die Verbesserung ihrer Effizienz für den praktischen Einsatz zunehmend an Bedeutung. Allerdings stehen moderne 3D-Transformer-Pipelines vor zwei miteinander verbundenen Herausforderungen: Dichte Multi-View-Attention erzeugt einen erheblichen Overhead beim Token-Mixing, und eine Ausführung mit niedriger Präzision kann geometrieempfindliche Darstellungen destabilisieren und die 3D-Konsistenz von Tiefe und Pose beeinträchtigen. Zur Bewältigung der ersten Herausforderung schlagen wir Lite3R vor, ein modellunabhängiges Teacher-Student-Framework, das die dichte Attention durch Sparse Linear Attention ersetzt, um wichtige geometrische Interaktionen zu erhalten und gleichzeitig die Attention-Kosten zu senken. Zur Bewältigung der zweiten Herausforderung führen wir eine parametereffiziente FP8-bewusste Quantization-Aware-Training-Strategie (FP8-aware QAT) mit partieller Attention-Destillation ein, die die überwältigende Mehrheit der vortrainierten Backbone-Parameter einfriert und nur leichte lineare Branch-Projektionsschichten trainiert. Dies ermöglicht eine stabile Ausführung mit niedriger Präzision unter Beibehaltung der vortrainierten geometrischen Priors. Wir evaluieren Lite3R weiterhin an zwei repräsentativen Backbones, VGGT und DA3-Large, über BlendedMVS und DTU64 und zeigen, dass es die Latenz (1,7–2,0-fach) und den Speicherverbrauch (1,9–2,4-fach) erheblich reduziert und gleichzeitig insgesamt eine wettbewerbsfähige Rekonstruktionsqualität beibehält. Diese Ergebnisse belegen, dass Lite3R einen effektiven Algorithmus-System-Co-Design-Ansatz für die praktische transformerbasierte 3D-Rekonstruktion bietet. Code: https://github.com/AIGeeksGroup/Lite3R. Website: https://aigeeksgroup.github.io/Lite3R.
English
Transformer-based 3D reconstruction has emerged as a powerful paradigm for recovering geometry and appearance from multi-view observations, offering strong performance across challenging visual conditions. As these models scale to larger backbones and higher-resolution inputs, improving their efficiency becomes increasingly important for practical deployment. However, modern 3D transformer pipelines face two coupled challenges: dense multi-view attention creates substantial token-mixing overhead, and low-precision execution can destabilize geometry-sensitive representations and degrade depth, pose, and 3D consistency. To address the first challenge, we propose Lite3R, a model-agnostic teacher-student framework that replaces dense attention with Sparse Linear Attention to preserve important geometric interactions while reducing attention cost. To address the second challenge, we introduce a parameter-efficient FP8-aware quantization-aware training (FP8-aware QAT) strategy with partial attention distillation, which freezes the vast majority of pretrained backbone parameters and trains only lightweight linear-branch projection layers, enabling stable low-precision deployment while retaining pretrained geometric priors. We further evaluate Lite3R on two representative backbones, VGGT and DA3-Large, over BlendedMVS and DTU64, showing that it substantially reduces latency (1.7-2.0x) and memory usage (1.9-2.4x) while preserving competitive reconstruction quality overall. These results demonstrate that Lite3R provides an effective algorithm-system co-design approach for practical transformer-based 3D reconstruction. Code: https://github.com/AIGeeksGroup/Lite3R. Website: https://aigeeksgroup.github.io/Lite3R.