Het herordenen van patches verbetert visuele modellen.
REOrdering Patches Improves Vision Models
May 29, 2025
Auteurs: Declan Kutscher, David M. Chan, Yutong Bai, Trevor Darrell, Ritwik Gupta
cs.AI
Samenvatting
Sequence-modellen zoals transformers vereisen dat invoergegevens worden weergegeven als eendimensionale sequenties. In visuele toepassingen houdt dit doorgaans in dat afbeeldingen worden afgevlakt met behulp van een vaste rij-voor-rij (raster-scan) volgorde. Hoewel volledige self-attention permutatie-equivariant is, vertrouwen moderne transformers voor lange sequenties steeds meer op architectonische benaderingen die deze invariantie doorbreken en gevoeligheid introduceren voor de volgorde van patches. Wij tonen aan dat de volgorde van patches de modelprestaties in dergelijke situaties aanzienlijk beïnvloedt, waarbij eenvoudige alternatieven zoals kolom-voor-kolom of Hilbert-curven opmerkelijke verschuivingen in nauwkeurigheid veroorzaken. Gemotiveerd door dit inzicht stellen we REOrder voor, een tweestappenraamwerk voor het ontdekken van taakoptimale patchvolgordes. Eerst leiden we een informatie-theoretische prior af door de comprimeerbaarheid van verschillende patchsequenties te evalueren. Vervolgens leren we een beleid over permutaties door een Plackett-Luce-beleid te optimaliseren met behulp van REINFORCE. Deze aanpak maakt efficiënt leren mogelijk in een combinatorische permutatieruimte. REOrder verbetert de top-1 nauwkeurigheid ten opzichte van rij-voor-rij ordening op ImageNet-1K met maximaal 3,01% en op Functional Map of the World met 13,35%.
English
Sequence models such as transformers require inputs to be represented as
one-dimensional sequences. In vision, this typically involves flattening images
using a fixed row-major (raster-scan) order. While full self-attention is
permutation-equivariant, modern long-sequence transformers increasingly rely on
architectural approximations that break this invariance and introduce
sensitivity to patch ordering. We show that patch order significantly affects
model performance in such settings, with simple alternatives like column-major
or Hilbert curves yielding notable accuracy shifts. Motivated by this, we
propose REOrder, a two-stage framework for discovering task-optimal patch
orderings. First, we derive an information-theoretic prior by evaluating the
compressibility of various patch sequences. Then, we learn a policy over
permutations by optimizing a Plackett-Luce policy using REINFORCE. This
approach enables efficient learning in a combinatorial permutation space.
REOrder improves top-1 accuracy over row-major ordering on ImageNet-1K by up to
3.01% and Functional Map of the World by 13.35%.