BA-T : un Transformateur itératif pour l'ajustement de faisceaux à deux vues

Résumé

Les modèles feed-forward pour la reconstruction 3D ont obtenu des performances élevées en exploitant une attention profonde inter-vues pour échanger des informations entre les images. Cependant, ces approches dépendent souvent de lourds empilements de décodeurs et manquent d'un mécanisme structuré pour le raffinement géométrique, ce qui entraîne une faible cohérence multi-vue. Nous répondons à ce problème en nous inspirant de l'ajustement de faisceaux (bundle adjustment, BA) classique, qui peut être vu comme un processus itératif de propagation d'informations entre les poses et la géométrie locale. Inspiré par le BA, nous proposons BA-T, un transformateur itératif qui implémente des mises à jour structurées de type BA sous forme de couche répétable dans un espace de tokens implicite. Au lieu de reposer sur de profonds empilements d'attention, BA-T affine les prédictions en se basant sur un résidu latent via une seule couche légère. Les expériences montrent que BA-T améliore progressivement la précision des poses et de la reconstruction au fil des itérations, atteint une meilleure cohérence inter-vues que les décodeurs conventionnels, et égale ou surpasse des modèles nettement plus grands tout en n'utilisant que 16 % de leurs paramètres de décodeur. BA-T constitue une alternative compacte, efficace et structurée à l'attention profonde, permettant une reconstruction 3D précise au sein d'une architecture légère. Le code sera rendu public à l'adresse https://github.com/zhangganlin/BA-T.

English

Feed-forward models for 3D reconstruction have achieved strong performance using deep cross-view attention to exchange information across images. However, these approaches often depend on heavy decoder stacks and lack a structured mechanism for geometry refinement, resulting in poor multi-view consistency. We address this by drawing inspiration from classical bundle adjustment (BA), which can be viewed as an iterative information propagation process between poses and local geometry. Inspired by BA, we propose BA-T, an iterative Transformer that implements BA-style structured updates as a repeatable layer in implicit token space. Instead of relying on deep attention stacks, BA-T refines predictions based on latent residual by a single lightweight layer. Experiments demonstrate that BA-T progressively improves pose and reconstruction accuracy across iterations, achieves stronger cross-view consistency than conventional decoders, and matches or surpasses substantially larger models while using only 16% of their decoder parameters. BA-T provides a compact, efficient, and structural alternative to depth-heavy attention, enabling accurate 3D reconstruction within a lightweight architecture. The code will be made publicly at https://github.com/zhangganlin/BA-T.