Le réordonnancement des patchs améliore les modèles de vision
REOrdering Patches Improves Vision Models
May 29, 2025
Auteurs: Declan Kutscher, David M. Chan, Yutong Bai, Trevor Darrell, Ritwik Gupta
cs.AI
Résumé
Les modèles séquentiels tels que les transformers nécessitent que les entrées soient représentées sous forme de séquences unidimensionnelles. Dans le domaine de la vision, cela implique généralement d'aplatir les images en utilisant un ordre fixe de type ligne par ligne (balayage raster). Bien que l'auto-attention complète soit équivariante aux permutations, les transformers modernes pour les longues séquences reposent de plus en plus sur des approximations architecturales qui rompent cette invariance et introduisent une sensibilité à l'ordre des patches. Nous montrons que l'ordre des patches affecte significativement les performances du modèle dans de tels contextes, avec des alternatives simples comme l'ordre colonne par colonne ou les courbes de Hilbert entraînant des variations notables de précision. Motivés par cela, nous proposons REOrder, un cadre en deux étapes pour découvrir des ordonnancements de patches optimaux pour une tâche donnée. Premièrement, nous dérivons un a priori informationnel en évaluant la compressibilité de diverses séquences de patches. Ensuite, nous apprenons une politique sur les permutations en optimisant une politique de Plackett-Luce à l'aide de REINFORCE. Cette approche permet un apprentissage efficace dans un espace combinatoire de permutations. REOrder améliore la précision top-1 par rapport à l'ordre ligne par ligne sur ImageNet-1K jusqu'à 3,01 % et sur Functional Map of the World de 13,35 %.
English
Sequence models such as transformers require inputs to be represented as
one-dimensional sequences. In vision, this typically involves flattening images
using a fixed row-major (raster-scan) order. While full self-attention is
permutation-equivariant, modern long-sequence transformers increasingly rely on
architectural approximations that break this invariance and introduce
sensitivity to patch ordering. We show that patch order significantly affects
model performance in such settings, with simple alternatives like column-major
or Hilbert curves yielding notable accuracy shifts. Motivated by this, we
propose REOrder, a two-stage framework for discovering task-optimal patch
orderings. First, we derive an information-theoretic prior by evaluating the
compressibility of various patch sequences. Then, we learn a policy over
permutations by optimizing a Plackett-Luce policy using REINFORCE. This
approach enables efficient learning in a combinatorial permutation space.
REOrder improves top-1 accuracy over row-major ordering on ImageNet-1K by up to
3.01% and Functional Map of the World by 13.35%.Summary
AI-Generated Summary