ChatPaper.aiChatPaper

Фазовая маргинализация для нестабильности патч-сетки в визуальных трансформерах

Phase Marginalization for Patch-Grid Instability in Vision Transformers

June 6, 2026
Авторы: Oğuzhan Ercan
cs.AI

Аннотация

Трансформеры зрения работают на фиксированных сетках патчей, что может вызывать фазово-зависимую нестабильность при плотном предсказании: изменение разбиения на патчи изменяет доступное пикселю токеновое свидетельство, особенно вблизи границ. Мы формализуем фазу сетки патчей как мешающую переменную и предлагаем маргинализацию по фазе — апостериорный метод маргинализации, который оценивает структурированные фазы сетки патчей, выполняет обратное выравнивание плотных выходов и агрегирует их в исходной системе координат изображения. Центральный вариант — равномерная маргинализация по фазе с K = 4 — не требует обучения и превосходит канонический базовый уровень K = 1 во всех измеренных настройках сегментации, глубины и локального сопоставления. В контролируемом эксперименте на Cityscapes равномерная маргинализация по фазе обеспечивает скромное преимущество при сопоставимых вычислительных затратах по сравнению с универсальной аугментацией во время тестирования (TTA) на основе сдвигов с четырьмя прямыми проходами (+0,31 среднего пересечения по объединению относительно наиболее сильной из протестированных универсальных строк). Дальнейшее исследование масштабирования показывает, что K = 4 является практическим компромиссом между стоимостью и точностью: K = 8 практически не изменяет результат, а K = 16 добавляет мало точности при значительно большей задержке. Эти результаты позиционируют фазу сетки патчей как измеримую мешающую переменную, а маргинализацию по фазе — как простой диагностический и апостериорный базовый уровень маргинализации для плотного предсказания с помощью ViT.
English
Vision Transformers operate on fixed patch grids, which can introduce phase-dependent instability for dense prediction: changing the patch partition can change the token evidence available to a pixel, especially near boundaries. We formalize patch-grid phase as a nuisance variable and propose Phase Marginalization, a post-hoc marginalization method that evaluates structured patch-grid phases, inverse-aligns dense outputs, and aggregates them in the original image coordinate system. The central variant, Uniform Phase Marginalization with K = 4, is training-free and improves over the canonical K = 1 baseline across measured segmentation, depth, and local matching settings. In a controlled Cityscapes experiment, Uniform Phase Marginalization provides a modest compute-matched advantage over generic shift-based four-forward test-time augmentation (TTA) (+0.31 mean Intersection-over-Union over the strongest tested generic row). A scaling study further shows that K = 4 is a practical cost-accuracy trade-off: K = 8 is essentially unchanged and K = 16 adds little accuracy at much higher latency. These results position patch-grid phase as a measurable nuisance variable and Phase Marginalization as a simple diagnostic and post-hoc marginalization baseline for dense ViT prediction.