Il collasso delle patch
The Collapse of Patches
November 27, 2025
Autori: Wei Guo, Shunqi Mao, Zhuonan Liang, Heng Wang, Weidong Cai
cs.AI
Abstract
L'osservazione di determinate regioni in un'immagine riduce l'incertezza di altre. La loro realizzazione abbassa l'entropia della distribuzione di ciascuna caratteristica rimanente della regione, in analogia al collasso della funzione d'onda di una particella nella meccanica quantistica. Questo fenomeno può essere intuitivamente definito collasso delle regioni. Per identificare quali regioni sono maggiormente determinanti durante il collasso di una regione target, apprendiamo un autoencoder che seleziona dolcemente un sottoinsieme di regioni per ricostruire ogni regione target. Rappresentando graficamente queste dipendenze apprese per il punteggio PageRank di ciascuna regione, si rivela l'ordine ottimale di realizzazione delle regioni per un'immagine. Dimostriamo che rispettare questo ordine apporta benefici a vari metodi di modellazione di immagini mascherate. In primo luogo, la generazione autoregressiva di immagini può essere potenziata riaddestrando il modello all'avanguardia MAR. Successivamente, introduciamo una nuova configurazione per la classificazione delle immagini esponendo i Vision Transformer solo alle regioni ad alto rango nell'ordine di collasso. L'osservazione del 22% di tali regioni è sufficiente per raggiungere un'elevata accuratezza. Con questi esperimenti, proponiamo il collasso delle regioni come una nuova prospettiva di modellazione delle immagini che promuove l'efficienza visiva. Il nostro progetto è disponibile all'indirizzo https://github.com/wguo-ai/CoP.
English
Observing certain patches in an image reduces the uncertainty of others. Their realization lowers the distribution entropy of each remaining patch feature, analogous to collapsing a particle's wave function in quantum mechanics. This phenomenon can intuitively be called patch collapse. To identify which patches are most relied on during a target region's collapse, we learn an autoencoder that softly selects a subset of patches to reconstruct each target patch. Graphing these learned dependencies for each patch's PageRank score reveals the optimal patch order to realize an image. We show that respecting this order benefits various masked image modeling methods. First, autoregressive image generation can be boosted by retraining the state-of-the-art model MAR. Next, we introduce a new setup for image classification by exposing Vision Transformers only to high-rank patches in the collapse order. Seeing 22\% of such patches is sufficient to achieve high accuracy. With these experiments, we propose patch collapse as a novel image modeling perspective that promotes vision efficiency. Our project is available at https://github.com/wguo-ai/CoP .