Le réordonnancement des patchs améliore les modèles de vision

papers.abstract

Les modèles séquentiels tels que les transformers nécessitent que les entrées soient représentées sous forme de séquences unidimensionnelles. Dans le domaine de la vision, cela implique généralement d'aplatir les images en utilisant un ordre fixe de type ligne par ligne (balayage raster). Bien que l'auto-attention complète soit équivariante aux permutations, les transformers modernes pour les longues séquences reposent de plus en plus sur des approximations architecturales qui rompent cette invariance et introduisent une sensibilité à l'ordre des patches. Nous montrons que l'ordre des patches affecte significativement les performances du modèle dans de tels contextes, avec des alternatives simples comme l'ordre colonne par colonne ou les courbes de Hilbert entraînant des variations notables de précision. Motivés par cela, nous proposons REOrder, un cadre en deux étapes pour découvrir des ordonnancements de patches optimaux pour une tâche donnée. Premièrement, nous dérivons un a priori informationnel en évaluant la compressibilité de diverses séquences de patches. Ensuite, nous apprenons une politique sur les permutations en optimisant une politique de Plackett-Luce à l'aide de REINFORCE. Cette approche permet un apprentissage efficace dans un espace combinatoire de permutations. REOrder améliore la précision top-1 par rapport à l'ordre ligne par ligne sur ImageNet-1K jusqu'à 3,01 % et sur Functional Map of the World de 13,35 %.

English

Sequence models such as transformers require inputs to be represented as one-dimensional sequences. In vision, this typically involves flattening images using a fixed row-major (raster-scan) order. While full self-attention is permutation-equivariant, modern long-sequence transformers increasingly rely on architectural approximations that break this invariance and introduce sensitivity to patch ordering. We show that patch order significantly affects model performance in such settings, with simple alternatives like column-major or Hilbert curves yielding notable accuracy shifts. Motivated by this, we propose REOrder, a two-stage framework for discovering task-optimal patch orderings. First, we derive an information-theoretic prior by evaluating the compressibility of various patch sequences. Then, we learn a policy over permutations by optimizing a Plackett-Luce policy using REINFORCE. This approach enables efficient learning in a combinatorial permutation space. REOrder improves top-1 accuracy over row-major ordering on ImageNet-1K by up to 3.01% and Functional Map of the World by 13.35%.

Le réordonnancement des patchs améliore les modèles de vision

REOrdering Patches Improves Vision Models

papers.abstract

Support