Reordenar Patches Melhora Modelos de Visão
REOrdering Patches Improves Vision Models
May 29, 2025
Autores: Declan Kutscher, David M. Chan, Yutong Bai, Trevor Darrell, Ritwik Gupta
cs.AI
Resumo
Modelos de sequência, como os transformadores, exigem que as entradas sejam representadas como sequências unidimensionais. Na visão computacional, isso geralmente envolve o achatamento de imagens usando uma ordem fixa de varredura por linhas (raster-scan). Embora a auto-atenção completa seja permutação-equivariante, os transformadores modernos para sequências longas dependem cada vez mais de aproximações arquitetônicas que quebram essa invariância e introduzem sensibilidade à ordem dos patches. Mostramos que a ordem dos patches afeta significativamente o desempenho do modelo nesses cenários, com alternativas simples, como a ordem de varredura por colunas ou curvas de Hilbert, resultando em mudanças notáveis na precisão. Motivados por isso, propomos o REOrder, uma estrutura de duas etapas para descobrir ordens de patches otimizadas para a tarefa. Primeiro, derivamos um prior teórico da informação avaliando a compressibilidade de várias sequências de patches. Em seguida, aprendemos uma política sobre permutações otimizando uma política de Plackett-Luce usando REINFORCE. Essa abordagem permite um aprendizado eficiente em um espaço combinatório de permutações. O REOrder melhora a acurácia top-1 em relação à ordem de varredura por linhas no ImageNet-1K em até 3,01% e no Functional Map of the World em 13,35%.
English
Sequence models such as transformers require inputs to be represented as
one-dimensional sequences. In vision, this typically involves flattening images
using a fixed row-major (raster-scan) order. While full self-attention is
permutation-equivariant, modern long-sequence transformers increasingly rely on
architectural approximations that break this invariance and introduce
sensitivity to patch ordering. We show that patch order significantly affects
model performance in such settings, with simple alternatives like column-major
or Hilbert curves yielding notable accuracy shifts. Motivated by this, we
propose REOrder, a two-stage framework for discovering task-optimal patch
orderings. First, we derive an information-theoretic prior by evaluating the
compressibility of various patch sequences. Then, we learn a policy over
permutations by optimizing a Plackett-Luce policy using REINFORCE. This
approach enables efficient learning in a combinatorial permutation space.
REOrder improves top-1 accuracy over row-major ordering on ImageNet-1K by up to
3.01% and Functional Map of the World by 13.35%.