Der Zusammenbruch von Flecken
The Collapse of Patches
November 27, 2025
papers.authors: Wei Guo, Shunqi Mao, Zhuonan Liang, Heng Wang, Weidong Cai
cs.AI
papers.abstract
Die Beobachtung bestimmter Bildbereiche verringert die Unsicherheit anderer Bereiche. Ihre Realisierung verringert die Entropie der Verteilung jedes verbleibenden Bildbereichsmerkmals, analog zum Kollaps der Wellenfunktion eines Teilchens in der Quantenmechanik. Dieses Phänomen kann intuitiv als Patch-Kollaps bezeichnet werden. Um zu identifizieren, auf welche Bildbereiche sich der Kollaps einer Zielregion am stärksten stützt, trainieren wir einen Autoencoder, der weich eine Teilmenge von Bildbereichen auswählt, um jeden Zielbereich zu rekonstruieren. Die Darstellung dieser gelernten Abhängigkeiten anhand des PageRank-Werts jedes Bereichs offenbart die optimale Reihenfolge zur Realisierung eines Bildes. Wir zeigen, dass die Berücksichtigung dieser Reihenfolge verschiedene Methoden des maskierten Bildmodellierens verbessert. Erstens kann die autoregressive Bildgenerierung durch Neutraining des State-of-the-Art-Modells MAR gesteigert werden. Als nächstes führen wir ein neues Setup für die Bildklassifizierung ein, bei dem Vision Transformer nur Bildbereichen mit hohem Rang in der Kollaps-Reihenfolge ausgesetzt werden. Die Betrachtung von nur 22 % solcher Bereiche reicht aus, um eine hohe Genauigkeit zu erzielen. Mit diesen Experimenten schlagen wir den Patch-Kollaps als eine neuartige Perspektive der Bildmodellierung vor, die die Effizienz in der Bildverarbeitung fördert. Unser Projekt ist unter https://github.com/wguo-ai/CoP verfügbar.
English
Observing certain patches in an image reduces the uncertainty of others. Their realization lowers the distribution entropy of each remaining patch feature, analogous to collapsing a particle's wave function in quantum mechanics. This phenomenon can intuitively be called patch collapse. To identify which patches are most relied on during a target region's collapse, we learn an autoencoder that softly selects a subset of patches to reconstruct each target patch. Graphing these learned dependencies for each patch's PageRank score reveals the optimal patch order to realize an image. We show that respecting this order benefits various masked image modeling methods. First, autoregressive image generation can be boosted by retraining the state-of-the-art model MAR. Next, we introduce a new setup for image classification by exposing Vision Transformers only to high-rank patches in the collapse order. Seeing 22\% of such patches is sufficient to achieve high accuracy. With these experiments, we propose patch collapse as a novel image modeling perspective that promotes vision efficiency. Our project is available at https://github.com/wguo-ai/CoP .