ChatPaper.aiChatPaper

Il riordinamento delle patch migliora i modelli di visione

REOrdering Patches Improves Vision Models

May 29, 2025
Autori: Declan Kutscher, David M. Chan, Yutong Bai, Trevor Darrell, Ritwik Gupta
cs.AI

Abstract

I modelli sequenziali come i transformer richiedono che gli input siano rappresentati come sequenze unidimensionali. Nel campo della visione artificiale, ciò comporta tipicamente l'appiattimento delle immagini utilizzando un ordine fisso row-major (scansione raster). Sebbene l'auto-attenzione completa sia permutazione-equivariante, i transformer moderni per sequenze lunghe si basano sempre più su approssimazioni architetturali che rompono questa invarianza e introducono una sensibilità all'ordine delle patch. Dimostriamo che l'ordine delle patch influisce significativamente sulle prestazioni del modello in tali contesti, con alternative semplici come l'ordine column-major o le curve di Hilbert che producono cambiamenti notevoli nell'accuratezza. Motivati da ciò, proponiamo REOrder, un framework in due fasi per scoprire ordinamenti ottimali delle patch per un determinato compito. In primo luogo, deriviamo un priore teorico-informativo valutando la comprimibilità di varie sequenze di patch. Successivamente, apprendiamo una politica sulle permutazioni ottimizzando una politica Plackett-Luce utilizzando REINFORCE. Questo approccio consente un apprendimento efficiente in uno spazio combinatorio di permutazioni. REOrder migliora l'accuratezza top-1 rispetto all'ordinamento row-major su ImageNet-1K fino al 3,01% e su Functional Map of the World del 13,35%.
English
Sequence models such as transformers require inputs to be represented as one-dimensional sequences. In vision, this typically involves flattening images using a fixed row-major (raster-scan) order. While full self-attention is permutation-equivariant, modern long-sequence transformers increasingly rely on architectural approximations that break this invariance and introduce sensitivity to patch ordering. We show that patch order significantly affects model performance in such settings, with simple alternatives like column-major or Hilbert curves yielding notable accuracy shifts. Motivated by this, we propose REOrder, a two-stage framework for discovering task-optimal patch orderings. First, we derive an information-theoretic prior by evaluating the compressibility of various patch sequences. Then, we learn a policy over permutations by optimizing a Plackett-Luce policy using REINFORCE. This approach enables efficient learning in a combinatorial permutation space. REOrder improves top-1 accuracy over row-major ordering on ImageNet-1K by up to 3.01% and Functional Map of the World by 13.35%.
PDF162May 30, 2025