BA-T: Un Transformer Iterativo para el Ajuste de Haces de Dos Vistas

Resumen

Los modelos feed-forward para reconstrucción 3D han logrado un rendimiento sólido mediante el uso de atención profunda entre vistas para intercambiar información entre imágenes. Sin embargo, estos enfoques a menudo dependen de pilas de decodificadores pesadas y carecen de un mecanismo estructurado para el refinamiento geométrico, lo que resulta en una pobre consistencia multivista. Abordamos esto inspirándonos en el ajuste de haces clásico (bundle adjustment, BA), que puede verse como un proceso iterativo de propagación de información entre las poses y la geometría local. Inspirados en BA, proponemos BA-T, un Transformer iterativo que implementa actualizaciones estructuradas al estilo de BA como una capa repetible en un espacio de tokens implícito. En lugar de depender de pilas de atención profundas, BA-T refina las predicciones basándose en residuos latentes mediante una única capa ligera. Los experimentos demuestran que BA-T mejora progresivamente la precisión de la pose y la reconstrucción a lo largo de las iteraciones, logra una consistencia entre vistas más sólida que los decodificadores convencionales, y supera o iguala modelos considerablemente más grandes utilizando solo el 16% de sus parámetros de decodificador. BA-T proporciona una alternativa compacta, eficiente y estructural a la atención profunda, permitiendo una reconstrucción 3D precisa dentro de una arquitectura ligera. El código se hará público en https://github.com/zhangganlin/BA-T.

English

Feed-forward models for 3D reconstruction have achieved strong performance using deep cross-view attention to exchange information across images. However, these approaches often depend on heavy decoder stacks and lack a structured mechanism for geometry refinement, resulting in poor multi-view consistency. We address this by drawing inspiration from classical bundle adjustment (BA), which can be viewed as an iterative information propagation process between poses and local geometry. Inspired by BA, we propose BA-T, an iterative Transformer that implements BA-style structured updates as a repeatable layer in implicit token space. Instead of relying on deep attention stacks, BA-T refines predictions based on latent residual by a single lightweight layer. Experiments demonstrate that BA-T progressively improves pose and reconstruction accuracy across iterations, achieves stronger cross-view consistency than conventional decoders, and matches or surpasses substantially larger models while using only 16% of their decoder parameters. BA-T provides a compact, efficient, and structural alternative to depth-heavy attention, enabling accurate 3D reconstruction within a lightweight architecture. The code will be made publicly at https://github.com/zhangganlin/BA-T.