Распад Пятен
The Collapse of Patches
November 27, 2025
Авторы: Wei Guo, Shunqi Mao, Zhuonan Liang, Heng Wang, Weidong Cai
cs.AI
Аннотация
Наблюдение за определенными участками изображения снижает неопределенность других. Их реализация уменьшает энтропию распределения характеристик каждого оставшегося участка, что аналогично коллапсу волновой функции частицы в квантовой механике. Это явление можно интуитивно назвать коллапсом участков. Чтобы определить, на какие участки больше всего опираются при коллапсе целевой области, мы обучаем автоэнкодер, который мягко выбирает подмножество участков для реконструкции каждого целевого участка. Визуализация этих изученных зависимостей через показатель PageRank для каждого участка выявляет оптимальный порядок реализации участков изображения. Мы показываем, что учет этого порядка улучшает различные методы моделирования замаскированных изображений. Во-первых, авторегрессионную генерацию изображений можно улучшить, переобучив передовую модель MAR. Далее мы представляем новую схему классификации изображений, предоставляя Vision Transformer'ам доступ только к участкам с высоким рангом в порядке коллапса. Достаточно видеть 22% таких участков для достижения высокой точности. Эти эксперименты позволяют предложить коллапс участков как новую перспективу моделирования изображений, повышающую эффективность компьютерного зрения. Наш проект доступен по адресу https://github.com/wguo-ai/CoP.
English
Observing certain patches in an image reduces the uncertainty of others. Their realization lowers the distribution entropy of each remaining patch feature, analogous to collapsing a particle's wave function in quantum mechanics. This phenomenon can intuitively be called patch collapse. To identify which patches are most relied on during a target region's collapse, we learn an autoencoder that softly selects a subset of patches to reconstruct each target patch. Graphing these learned dependencies for each patch's PageRank score reveals the optimal patch order to realize an image. We show that respecting this order benefits various masked image modeling methods. First, autoregressive image generation can be boosted by retraining the state-of-the-art model MAR. Next, we introduce a new setup for image classification by exposing Vision Transformers only to high-rank patches in the collapse order. Seeing 22\% of such patches is sufficient to achieve high accuracy. With these experiments, we propose patch collapse as a novel image modeling perspective that promotes vision efficiency. Our project is available at https://github.com/wguo-ai/CoP .