BA-T: Een iteratieve Transformer voor twee-views bundelaanpassing

Samenvatting

Feed-forward modellen voor 3D-reconstructie hebben sterke prestaties behaald door gebruik te maken van diepe cross-view aandacht om informatie tussen afbeeldingen uit te wisselen. Deze benaderingen zijn echter vaak afhankelijk van zware decoderstapelingen en missen een gestructureerd mechanisme voor geometrische verfijning, wat leidt tot slechte multi-view consistentie. Wij pakken dit aan door inspiratie te putten uit klassieke bundelaanpassing (BA), die kan worden gezien als een iteratief informatiepropagatieproces tussen posities en lokale geometrie. Geïnspireerd door BA stellen we BA-T voor, een iteratieve Transformer die BA-achtige gestructureerde updates implementeert als een herhaalbare laag in impliciete tokenruimte. In plaats van te vertrouwen op diepe aandachtstapelingen, verfijnt BA-T voorspellingen op basis van latente residuen met een enkele lichtgewicht laag. Experimenten tonen aan dat BA-T iteratief de nauwkeurigheid van posities en reconstructie verbetert, sterkere cross-view consistentie bereikt dan conventionele decoders, en even groot of groter is dan aanzienlijk grotere modellen, terwijl het slechts 16% van hun decoderparameters gebruikt. BA-T biedt een compact, efficiënt en structureel alternatief voor diepgaande aandacht, waardoor nauwkeurige 3D-reconstructie mogelijk wordt binnen een lichtgewicht architectuur. De code zal openbaar worden gemaakt op https://github.com/zhangganlin/BA-T.

English

Feed-forward models for 3D reconstruction have achieved strong performance using deep cross-view attention to exchange information across images. However, these approaches often depend on heavy decoder stacks and lack a structured mechanism for geometry refinement, resulting in poor multi-view consistency. We address this by drawing inspiration from classical bundle adjustment (BA), which can be viewed as an iterative information propagation process between poses and local geometry. Inspired by BA, we propose BA-T, an iterative Transformer that implements BA-style structured updates as a repeatable layer in implicit token space. Instead of relying on deep attention stacks, BA-T refines predictions based on latent residual by a single lightweight layer. Experiments demonstrate that BA-T progressively improves pose and reconstruction accuracy across iterations, achieves stronger cross-view consistency than conventional decoders, and matches or surpasses substantially larger models while using only 16% of their decoder parameters. BA-T provides a compact, efficient, and structural alternative to depth-heavy attention, enabling accurate 3D reconstruction within a lightweight architecture. The code will be made publicly at https://github.com/zhangganlin/BA-T.