Marginalisation de phase pour l'instabilité de la grille de patches dans les Transformers pour la vision

Résumé

Les Vision Transformers opèrent sur des grilles de patches fixes, ce qui peut introduire une instabilité dépendante de la phase pour la prédiction dense : changer la partition des patches peut modifier l’évidence des tokens disponible pour un pixel, en particulier près des frontières. Nous formalisons la phase de la grille de patches comme une variable de nuisance et proposons la Marginalisation de Phase, une méthode de marginalisation post-hoc qui évalue des phases structurées de grille de patches, réaligne inversement les sorties denses, et les agrège dans le système de coordonnées de l’image d’origine. La variante centrale, la Marginalisation de Phase Uniforme avec K = 4, ne nécessite pas d’entraînement et améliore les résultats par rapport à la référence canonique K = 1 dans les contextes mesurés de segmentation, de profondeur et d’appariement local. Dans une expérience contrôlée sur Cityscapes, la Marginalisation de Phase Uniforme offre un avantage modeste, à coût de calcul équivalent, par rapport à l’augmentation de test générique à quatre passes basée sur des décalages (+0,31 d’Intersection sur Union moyenne par rapport à la meilleure ligne générique testée). Une étude de passage à l’échelle montre en outre que K = 4 constitue un compromis coût-précision pratique : K = 8 est essentiellement inchangé et K = 16 n’apporte qu’un faible gain de précision pour une latence beaucoup plus élevée. Ces résultats positionnent la phase de grille de patches comme une variable de nuisance mesurable et la Marginalisation de Phase comme une référence de diagnostic simple et de marginalisation post-hoc pour la prédiction dense avec ViT.

English

Vision Transformers operate on fixed patch grids, which can introduce phase-dependent instability for dense prediction: changing the patch partition can change the token evidence available to a pixel, especially near boundaries. We formalize patch-grid phase as a nuisance variable and propose Phase Marginalization, a post-hoc marginalization method that evaluates structured patch-grid phases, inverse-aligns dense outputs, and aggregates them in the original image coordinate system. The central variant, Uniform Phase Marginalization with K = 4, is training-free and improves over the canonical K = 1 baseline across measured segmentation, depth, and local matching settings. In a controlled Cityscapes experiment, Uniform Phase Marginalization provides a modest compute-matched advantage over generic shift-based four-forward test-time augmentation (TTA) (+0.31 mean Intersection-over-Union over the strongest tested generic row). A scaling study further shows that K = 4 is a practical cost-accuracy trade-off: K = 8 is essentially unchanged and K = 16 adds little accuracy at much higher latency. These results position patch-grid phase as a measurable nuisance variable and Phase Marginalization as a simple diagnostic and post-hoc marginalization baseline for dense ViT prediction.