O Colapso dos Fragmentos

Resumo

A observação de certos segmentos em uma imagem reduz a incerteza de outros. Sua realização diminui a entropia da distribuição de cada característica remanescente do segmento, de forma análoga ao colapso da função de onda de uma partícula na mecânica quântica. Este fenômeno pode ser intuitivamente denominado *colapso de segmentos*. Para identificar quais segmentos são mais determinantes durante o colapso de uma região-alvo, aprendemos um autoencoder que seleciona suavemente um subconjunto de segmentos para reconstruir cada segmento-alvo. Mapear essas dependências aprendidas para a pontuação PageRank de cada segmento revela a ordem ideal de realização de uma imagem. Demonstramos que respeitar esta ordem beneficia vários métodos de modelagem de imagem mascarada. Primeiro, a geração autoregressiva de imagens pode ser impulsionada ao retreinar o modelo de última geração MAR. Em seguida, introduzimos uma nova configuração para classificação de imagens expondo os Vision Transformers apenas a segmentos de alto ranking na ordem de colapso. A visualização de 22% desses segmentos é suficiente para alcançar alta precisão. Com estes experimentos, propomos o colapso de segmentos como uma nova perspectiva de modelagem de imagem que promove a eficiência visual. Nosso projeto está disponível em https://github.com/wguo-ai/CoP.

English

Observing certain patches in an image reduces the uncertainty of others. Their realization lowers the distribution entropy of each remaining patch feature, analogous to collapsing a particle's wave function in quantum mechanics. This phenomenon can intuitively be called patch collapse. To identify which patches are most relied on during a target region's collapse, we learn an autoencoder that softly selects a subset of patches to reconstruct each target patch. Graphing these learned dependencies for each patch's PageRank score reveals the optimal patch order to realize an image. We show that respecting this order benefits various masked image modeling methods. First, autoregressive image generation can be boosted by retraining the state-of-the-art model MAR. Next, we introduce a new setup for image classification by exposing Vision Transformers only to high-rank patches in the collapse order. Seeing 22\% of such patches is sufficient to achieve high accuracy. With these experiments, we propose patch collapse as a novel image modeling perspective that promotes vision efficiency. Our project is available at https://github.com/wguo-ai/CoP .