패치의 붕괴
The Collapse of Patches
November 27, 2025
저자: Wei Guo, Shunqi Mao, Zhuonan Liang, Heng Wang, Weidong Cai
cs.AI
초록
이미지 내 특정 패치를 관측하면 다른 패치들의 불확실성이 감소합니다. 이들의 실현은 양자역학에서 입자의 파동 함수가 붕괴되는 것과 유사하게, 각 나머지 패치 특징의 분포 엔트로피를 낮춥니다. 이러한 현상을 직관적으로 패치 붕괴(patch collapse)라고 명명할 수 있습니다. 대상 영역의 붕괴 과정에서 가장 의존되는 패치들을 규명하기 위해, 우리는 각 대상 패치를 재구성하기 위해 부분 집합의 패치들을 연성 선택(softly select)하는 오토인코더를 학습합니다. 각 패치의 페이지랭크(PageRank) 점수에 대해 학습된 이러한 의존 관계를 그래프로 나타내면 이미지를 실현하기 위한 최적의 패치 순서를 도출할 수 있습니다. 우리는 이 순서를 준수하는 것이 다양한 마스킹 이미지 모델링 방법에 도움이 됨을 보여줍니다. 먼저, 최신 모델인 MAR을 재학습시켜 자율회귀(auto-regressive) 이미지 생성을 향상시킬 수 있습니다. 다음으로, 붕괴 순서상 높은 순위의 패치들만을 Vision Transformer에 노출시켜 이미지 분류를 위한 새로운 설정을 소개합니다. 이러한 패치의 22%만 보는 것으로도 높은 정확도를 달성하기에 충분합니다. 이러한 실험을 통해 우리는 시각 효율성(vision efficiency)을 증진하는 새로운 이미지 모델링 관점으로서 패치 붕괴를 제안합니다. 우리의 프로젝트는 https://github.com/wguo-ai/CoP 에서 확인할 수 있습니다.
English
Observing certain patches in an image reduces the uncertainty of others. Their realization lowers the distribution entropy of each remaining patch feature, analogous to collapsing a particle's wave function in quantum mechanics. This phenomenon can intuitively be called patch collapse. To identify which patches are most relied on during a target region's collapse, we learn an autoencoder that softly selects a subset of patches to reconstruct each target patch. Graphing these learned dependencies for each patch's PageRank score reveals the optimal patch order to realize an image. We show that respecting this order benefits various masked image modeling methods. First, autoregressive image generation can be boosted by retraining the state-of-the-art model MAR. Next, we introduce a new setup for image classification by exposing Vision Transformers only to high-rank patches in the collapse order. Seeing 22\% of such patches is sufficient to achieve high accuracy. With these experiments, we propose patch collapse as a novel image modeling perspective that promotes vision efficiency. Our project is available at https://github.com/wguo-ai/CoP .