Fasemarginalisatie voor patch-grid instabiliteit in Vision Transformers

Samenvatting

Vision Transformers werken op vaste patchrasters, wat fase-afhankelijke instabiliteit kan introduceren voor dichte voorspelling: het wijzigen van de patchindeling kan het tokenbewijs dat beschikbaar is voor een pixel veranderen, vooral nabij grenzen. We formaliseren de patchrastrfase als een storingsvariabele en stellen Fasemarginalisatie voor, een post-hoc marginalisatiemethode die gestructureerde patchrastrfases evalueert, dichte uitvoeren omgekeerd uitlijnt en deze aggregeert in het oorspronkelijke beeldcoördinatensysteem. De centrale variant, Uniforme Fasemarginalisatie met K = 4, is trainingsvrij en presteert beter dan de canonieke K = 1 baseline in gemeten segmentatie-, diepte- en lokale matchinginstellingen. In een gecontroleerd Cityscapes-experiment biedt Uniforme Fasemarginalisatie een bescheiden compute-gematcht voordeel ten opzichte van generieke verschuivingsgebaseerde vier-voorwaartse testtijdaugmentatie (TTA) (+0,31 gemiddelde Intersection-over-Union ten opzichte van de sterkste geteste generieke rij). Een schalingsstudie toont verder aan dat K = 4 een praktische kosten-nauwkeurigheid-afweging is: K = 8 is in wezen onveranderd en K = 16 voegt weinig nauwkeurigheid toe bij veel hogere latentie. Deze resultaten positioneren patchrastrfase als een meetbare storingsvariabele en Fasemarginalisatie als een eenvoudige diagnostische en post-hoc marginalisatiebaseline voor dichte ViT-voorspelling.

English

Vision Transformers operate on fixed patch grids, which can introduce phase-dependent instability for dense prediction: changing the patch partition can change the token evidence available to a pixel, especially near boundaries. We formalize patch-grid phase as a nuisance variable and propose Phase Marginalization, a post-hoc marginalization method that evaluates structured patch-grid phases, inverse-aligns dense outputs, and aggregates them in the original image coordinate system. The central variant, Uniform Phase Marginalization with K = 4, is training-free and improves over the canonical K = 1 baseline across measured segmentation, depth, and local matching settings. In a controlled Cityscapes experiment, Uniform Phase Marginalization provides a modest compute-matched advantage over generic shift-based four-forward test-time augmentation (TTA) (+0.31 mean Intersection-over-Union over the strongest tested generic row). A scaling study further shows that K = 4 is a practical cost-accuracy trade-off: K = 8 is essentially unchanged and K = 16 adds little accuracy at much higher latency. These results position patch-grid phase as a measurable nuisance variable and Phase Marginalization as a simple diagnostic and post-hoc marginalization baseline for dense ViT prediction.