ChatPaper.aiChatPaper

L'effondrement des plaques.

The Collapse of Patches

November 27, 2025
papers.authors: Wei Guo, Shunqi Mao, Zhuonan Liang, Heng Wang, Weidong Cai
cs.AI

papers.abstract

L'observation de certaines régions dans une image réduit l'incertitude des autres. Leur réalisation diminue l'entropie de distribution de chaque caractéristique de région restante, de manière analogue à la réduction de la fonction d'onde d'une particule en mécanique quantique. Ce phénomène peut intuitivement être appelé effondrement des régions. Pour identifier quelles régions sont les plus déterminantes lors de l'effondrement d'une région cible, nous entraînons un autoencodeur qui sélectionne souplement un sous-ensemble de régions pour reconstruire chaque région cible. La représentation graphique de ces dépendances apprises pour le score PageRank de chaque région révèle l'ordre optimal de réalisation d'une image. Nous démontrons que le respect de cet ordre bénéficie à diverses méthodes de modélisation d'images masquées. Premièrement, la génération autoregressive d'images peut être améliorée en réentraînant le modèle MAR state-of-the-art. Ensuite, nous introduisons une nouvelle configuration pour la classification d'images en n'exposant les Vision Transformers qu'aux régions de haut rang dans l'ordre d'effondrement. L'observation de 22 % de ces régions suffit à atteindre une haute précision. Par ces expériences, nous proposons l'effondrement des régions comme nouvelle perspective de modélisation d'images favorisant l'efficacité visuelle. Notre projet est disponible à l'adresse https://github.com/wguo-ai/CoP .
English
Observing certain patches in an image reduces the uncertainty of others. Their realization lowers the distribution entropy of each remaining patch feature, analogous to collapsing a particle's wave function in quantum mechanics. This phenomenon can intuitively be called patch collapse. To identify which patches are most relied on during a target region's collapse, we learn an autoencoder that softly selects a subset of patches to reconstruct each target patch. Graphing these learned dependencies for each patch's PageRank score reveals the optimal patch order to realize an image. We show that respecting this order benefits various masked image modeling methods. First, autoregressive image generation can be boosted by retraining the state-of-the-art model MAR. Next, we introduce a new setup for image classification by exposing Vision Transformers only to high-rank patches in the collapse order. Seeing 22\% of such patches is sufficient to achieve high accuracy. With these experiments, we propose patch collapse as a novel image modeling perspective that promotes vision efficiency. Our project is available at https://github.com/wguo-ai/CoP .
PDF52December 2, 2025