Phasenmarginalisierung für Patch-Gitter-Instabilität in Vision Transformers

Zusammenfassung

Vision Transformers arbeiten auf festen Patch-Gittern, was zu phasenabhängiger Instabilität bei dichten Vorhersagen führen kann: Eine Änderung der Patch-Aufteilung kann die Token-Evidenz ändern, die einem Pixel zur Verfügung steht, insbesondere in der Nähe von Grenzen. Wir formalisieren die Patch-Gitter-Phase als Störvariable und schlagen die Phasenmarginalisierung vor, eine Post-hoc-Marginalisierungsmethode, die strukturierte Patch-Gitter-Phasen auswertet, dichte Ausgaben invers ausrichtet und sie im ursprünglichen Bildkoordinatensystem aggregiert. Die zentrale Variante, die einheitliche Phasenmarginalisierung mit K = 4, ist trainingsfrei und verbessert die kanonische K = 1-Baseline in den gemessenen Segmentierungs-, Tiefen- und lokalen Abgleichseinstellungen. In einem kontrollierten Cityscapes-Experiment bietet die einheitliche Phasenmarginalisierung einen bescheidenen rechenangepassten Vorteil gegenüber der generischen, verschiebungsbasierten Vierfach-Testzeit-Augmentierung (TTA) (+0,31 mittlerer Schnitt-über-Vereinigung gegenüber der stärksten getesteten generischen Reihe). Eine Skalierungsstudie zeigt ferner, dass K = 4 einen praktischen Kosten-Genauigkeits-Kompromiss darstellt: K = 8 ist im Wesentlichen unverändert und K = 16 fügt wenig Genauigkeit bei viel höherer Latenz hinzu. Diese Ergebnisse positionieren die Patch-Gitter-Phase als messbare Störvariable und die Phasenmarginalisierung als einfache Diagnose- und Post-hoc-Marginalisierungs-Baseline für dichte ViT-Vorhersagen.

English

Vision Transformers operate on fixed patch grids, which can introduce phase-dependent instability for dense prediction: changing the patch partition can change the token evidence available to a pixel, especially near boundaries. We formalize patch-grid phase as a nuisance variable and propose Phase Marginalization, a post-hoc marginalization method that evaluates structured patch-grid phases, inverse-aligns dense outputs, and aggregates them in the original image coordinate system. The central variant, Uniform Phase Marginalization with K = 4, is training-free and improves over the canonical K = 1 baseline across measured segmentation, depth, and local matching settings. In a controlled Cityscapes experiment, Uniform Phase Marginalization provides a modest compute-matched advantage over generic shift-based four-forward test-time augmentation (TTA) (+0.31 mean Intersection-over-Union over the strongest tested generic row). A scaling study further shows that K = 4 is a practical cost-accuracy trade-off: K = 8 is essentially unchanged and K = 16 adds little accuracy at much higher latency. These results position patch-grid phase as a measurable nuisance variable and Phase Marginalization as a simple diagnostic and post-hoc marginalization baseline for dense ViT prediction.