ChatPaper.aiChatPaper

Het instorten van patches.

The Collapse of Patches

November 27, 2025
Auteurs: Wei Guo, Shunqi Mao, Zhuonan Liang, Heng Wang, Weidong Cai
cs.AI

Samenvatting

Het observeren van bepaalde beeldpatches vermindert de onzekerheid van andere. Hun realisatie verlaagt de entropie van de verdeling van elke resterende patchkenmerk, analoog aan het instorten van de golffunctie van een deeltje in de kwantummechanica. Dit fenomeen kan intuïtief worden aangeduid als patch-collaps. Om te identificeren op welke patches het meest wordt vertrouwd tijdens het collaps van een doelgebied, leren we een auto-encoder die een subset van patches zachtjes selecteert om elke doelpatch te reconstrueren. Door deze geleerde afhankelijkheden te visualiseren met de PageRank-score van elke patch, wordt de optimale patchvolgorde om een beeld te realiseren onthuld. We tonen aan dat het respecteren van deze volgorde diverse gemaskeerde beeldmodelleringsmethoden ten goede komt. Ten eerste kan autoregressieve beeldgeneratie worden verbeterd door het state-of-the-art model MAR opnieuw te trainen. Vervolgens introduceren we een nieuwe opzet voor beeldclassificatie door Vision Transformers uitsluitend bloot te stellen aan patches met een hoge rang in de collapsvolgorde. Het zien van 22% van dergelijke patches volstaat om een hoge nauwkeurigheid te bereiken. Met deze experimenten stellen we patch-collaps voor als een nieuw perspectief voor beeldmodellering dat visuele efficiëntie bevordert. Ons project is beschikbaar op https://github.com/wguo-ai/CoP.
English
Observing certain patches in an image reduces the uncertainty of others. Their realization lowers the distribution entropy of each remaining patch feature, analogous to collapsing a particle's wave function in quantum mechanics. This phenomenon can intuitively be called patch collapse. To identify which patches are most relied on during a target region's collapse, we learn an autoencoder that softly selects a subset of patches to reconstruct each target patch. Graphing these learned dependencies for each patch's PageRank score reveals the optimal patch order to realize an image. We show that respecting this order benefits various masked image modeling methods. First, autoregressive image generation can be boosted by retraining the state-of-the-art model MAR. Next, we introduce a new setup for image classification by exposing Vision Transformers only to high-rank patches in the collapse order. Seeing 22\% of such patches is sufficient to achieve high accuracy. With these experiments, we propose patch collapse as a novel image modeling perspective that promotes vision efficiency. Our project is available at https://github.com/wguo-ai/CoP .
PDF52December 2, 2025