ChatPaper.aiChatPaper

비전 트랜스포머에서 패치 그리드 불안정성에 대한 위상 주변화

Phase Marginalization for Patch-Grid Instability in Vision Transformers

June 6, 2026
저자: Oğuzhan Ercan
cs.AI

초록

비전 트랜스포머는 고정 패치 그리드에서 작동하며, 이는 밀집 예측에 대해 위상 의존적 불안정성을 유발할 수 있습니다. 패치 분할을 변경하면 특히 경계 근처에서 픽셀에 제공되는 토큰 증거가 바뀔 수 있기 때문입니다. 우리는 패치 그리드 위상을 방해 변수로 공식화하고, 구조화된 패치 그리드 위상을 평가하고 밀집 출력을 역정렬한 후 원본 이미지 좌표계에서 집계하는 사후 주변화 방법인 위상 주변화(Phase Marginalization)를 제안합니다. 중심 변형인 K=4를 사용한 균일 위상 주변화(Uniform Phase Marginalization)는 학습이 필요 없으며, 측정된 분할, 깊이 및 로컬 매칭 설정에서 기존의 K=1 기준선보다 성능이 향상됩니다. 통제된 Cityscapes 실험에서 균일 위상 주변화는 계산량이 동일한 조건에서 일반적인 이동 기반 4회 순방향 테스트 시간 증강(TTA)보다 약간의 이점을 제공합니다(가장 강력한 테스트 일반 행보다 평균 IoU가 0.31 높음). 확장 연구는 K=4가 실용적인 비용-정확도 균형점임을 추가로 보여줍니다. K=8은 본질적으로 변하지 않으며, K=16은 훨씬 높은 지연 시간에 정확도가 거의 향상되지 않습니다. 이러한 결과는 패치 그리드 위상을 측정 가능한 방해 변수로, 위상 주변화를 밀집 ViT 예측을 위한 간단한 진단 및 사후 주변화 기준선으로 자리매김합니다.
English
Vision Transformers operate on fixed patch grids, which can introduce phase-dependent instability for dense prediction: changing the patch partition can change the token evidence available to a pixel, especially near boundaries. We formalize patch-grid phase as a nuisance variable and propose Phase Marginalization, a post-hoc marginalization method that evaluates structured patch-grid phases, inverse-aligns dense outputs, and aggregates them in the original image coordinate system. The central variant, Uniform Phase Marginalization with K = 4, is training-free and improves over the canonical K = 1 baseline across measured segmentation, depth, and local matching settings. In a controlled Cityscapes experiment, Uniform Phase Marginalization provides a modest compute-matched advantage over generic shift-based four-forward test-time augmentation (TTA) (+0.31 mean Intersection-over-Union over the strongest tested generic row). A scaling study further shows that K = 4 is a practical cost-accuracy trade-off: K = 8 is essentially unchanged and K = 16 adds little accuracy at much higher latency. These results position patch-grid phase as a measurable nuisance variable and Phase Marginalization as a simple diagnostic and post-hoc marginalization baseline for dense ViT prediction.