Marginalización de fase para la inestabilidad de la cuadrícula de parches en transformadores de visión
Phase Marginalization for Patch-Grid Instability in Vision Transformers
June 6, 2026
Autores: Oğuzhan Ercan
cs.AI
Resumen
Los Vision Transformers operan sobre cuadrículas de parches fijas, lo que puede introducir inestabilidad dependiente de la fase para la predicción densa: cambiar la partición de parches puede modificar la evidencia de tokens disponible para un píxel, especialmente cerca de los bordes. Formalizamos la fase de la cuadrícula de parches como una variable nuisance y proponemos la Marginalización de Fase, un método de marginalización post-hoc que evalúa fases estructuradas de la cuadrícula de parches, realinea inversamente las salidas densas y las agrega en el sistema de coordenadas de la imagen original. La variante central, Marginalización de Fase Uniforme con K = 4, no requiere entrenamiento y mejora respecto a la línea base canónica de K = 1 en configuraciones medidas de segmentación, profundidad y correspondencia local. En un experimento controlado con Cityscapes, la Marginalización de Fase Uniforme proporciona una ventaja modesta, equivalente en coste computacional, frente a la aumentación de datos en tiempo de prueba (TTA) genérica basada en desplazamientos con cuatro pasadas (+0.31 de media de Intersección sobre Unión respecto a la fila genérica más robusta evaluada). Un estudio de escalado muestra además que K = 4 representa un equilibrio práctico entre coste y precisión: K = 8 es esencialmente igual y K = 16 añade poca precisión a una latencia mucho mayor. Estos resultados posicionan a la fase de la cuadrícula de parches como una variable nuisance medible y a la Marginalización de Fase como una línea base simple de diagnóstico y marginalización post-hoc para la predicción densa con ViT.
English
Vision Transformers operate on fixed patch grids, which can introduce phase-dependent instability for dense prediction: changing the patch partition can change the token evidence available to a pixel, especially near boundaries. We formalize patch-grid phase as a nuisance variable and propose Phase Marginalization, a post-hoc marginalization method that evaluates structured patch-grid phases, inverse-aligns dense outputs, and aggregates them in the original image coordinate system. The central variant, Uniform Phase Marginalization with K = 4, is training-free and improves over the canonical K = 1 baseline across measured segmentation, depth, and local matching settings. In a controlled Cityscapes experiment, Uniform Phase Marginalization provides a modest compute-matched advantage over generic shift-based four-forward test-time augmentation (TTA) (+0.31 mean Intersection-over-Union over the strongest tested generic row). A scaling study further shows that K = 4 is a practical cost-accuracy trade-off: K = 8 is essentially unchanged and K = 16 adds little accuracy at much higher latency. These results position patch-grid phase as a measurable nuisance variable and Phase Marginalization as a simple diagnostic and post-hoc marginalization baseline for dense ViT prediction.