パッチの崩壊
The Collapse of Patches
November 27, 2025
著者: Wei Guo, Shunqi Mao, Zhuonan Liang, Heng Wang, Weidong Cai
cs.AI
要旨
画像内の特定のパッチを観測すると、他のパッチの不確実性が減少する。これらの実現は、残りの各パッチ特徴の分布エントロピーを低下させ、量子力学における粒子の波動関数の収縮に類似している。この現象は直感的に「パッチ崩壊」と呼ぶことができる。対象領域の崩壊時にどのパッチが最も依存されているかを特定するため、各対象パッチを再構築するためにソフトにパッチのサブセットを選択するオートエンコーダを学習する。これらの学習された依存関係を各パッチのPageRankスコアでグラフ化すると、画像を実現する最適なパッチ順序が明らかになる。この順序を尊重することが、様々なマスク画像モデリング手法に有益であることを示す。まず、最先端モデルMARを再学習することで、自己回帰的な画像生成を促進できる。次に、Vision Transformerに崩壊順序における高ランクパッチのみを入力する新しい画像分類手法を提案する。このようなパッチの22%を見るだけで、高い精度を達成できる。これらの実験を通じて、視覚効率を促進する新しい画像モデリングの視点としてパッチ崩壊を提案する。本プロジェクトはhttps://github.com/wguo-ai/CoP で公開されている。
English
Observing certain patches in an image reduces the uncertainty of others. Their realization lowers the distribution entropy of each remaining patch feature, analogous to collapsing a particle's wave function in quantum mechanics. This phenomenon can intuitively be called patch collapse. To identify which patches are most relied on during a target region's collapse, we learn an autoencoder that softly selects a subset of patches to reconstruct each target patch. Graphing these learned dependencies for each patch's PageRank score reveals the optimal patch order to realize an image. We show that respecting this order benefits various masked image modeling methods. First, autoregressive image generation can be boosted by retraining the state-of-the-art model MAR. Next, we introduce a new setup for image classification by exposing Vision Transformers only to high-rank patches in the collapse order. Seeing 22\% of such patches is sufficient to achieve high accuracy. With these experiments, we propose patch collapse as a novel image modeling perspective that promotes vision efficiency. Our project is available at https://github.com/wguo-ai/CoP .