ChatPaper.aiChatPaper

El colapso de los parches.

The Collapse of Patches

November 27, 2025
Autores: Wei Guo, Shunqi Mao, Zhuonan Liang, Heng Wang, Weidong Cai
cs.AI

Resumen

La observación de ciertos parches en una imagen reduce la incertidumbre de otros. Su realización disminuye la entropía de la distribución de cada característica de parche restante, de manera análoga al colapso de la función de onda de una partícula en mecánica cuántica. Este fenómeno puede denominarse intuitivamente como colapso de parches. Para identificar qué parches son más determinantes durante el colapso de una región objetivo, entrenamos un autocodificador que selecciona suavemente un subconjunto de parches para reconstruir cada parche objetivo. Al graficar estas dependencias aprendidas para la puntuación PageRank de cada parche, se revela el orden óptimo de realización de una imagen. Demostramos que respetar este orden beneficia a varios métodos de modelado de imágenes enmascaradas. Primero, la generación autoregresiva de imágenes puede potenciarse reentrenando el modelo de vanguardia MAR. A continuación, introducimos una nueva configuración para clasificación de imágenes exponiendo a los Vision Transformers únicamente a parches de alto rango en el orden de colapso. Visualizar solo un 22% de estos parches es suficiente para alcanzar alta precisión. Con estos experimentos, proponemos el colapso de parches como una perspectiva novedosa de modelado de imágenes que promueve la eficiencia en visión por computador. Nuestro proyecto está disponible en https://github.com/wguo-ai/CoP.
English
Observing certain patches in an image reduces the uncertainty of others. Their realization lowers the distribution entropy of each remaining patch feature, analogous to collapsing a particle's wave function in quantum mechanics. This phenomenon can intuitively be called patch collapse. To identify which patches are most relied on during a target region's collapse, we learn an autoencoder that softly selects a subset of patches to reconstruct each target patch. Graphing these learned dependencies for each patch's PageRank score reveals the optimal patch order to realize an image. We show that respecting this order benefits various masked image modeling methods. First, autoregressive image generation can be boosted by retraining the state-of-the-art model MAR. Next, we introduce a new setup for image classification by exposing Vision Transformers only to high-rank patches in the collapse order. Seeing 22\% of such patches is sufficient to achieve high accuracy. With these experiments, we propose patch collapse as a novel image modeling perspective that promotes vision efficiency. Our project is available at https://github.com/wguo-ai/CoP .
PDF52December 2, 2025