Reordenar los parches mejora los modelos de visión
REOrdering Patches Improves Vision Models
May 29, 2025
Autores: Declan Kutscher, David M. Chan, Yutong Bai, Trevor Darrell, Ritwik Gupta
cs.AI
Resumen
Los modelos de secuencia como los transformadores requieren que las entradas se representen como secuencias unidimensionales. En visión, esto generalmente implica aplanar las imágenes utilizando un orden fijo de fila principal (raster-scan). Si bien la autoatención completa es permutación-equivariante, los transformadores modernos para secuencias largas dependen cada vez más de aproximaciones arquitectónicas que rompen esta invariancia e introducen sensibilidad al orden de los parches. Demostramos que el orden de los parches afecta significativamente el rendimiento del modelo en tales configuraciones, con alternativas simples como el orden de columna principal o las curvas de Hilbert produciendo cambios notables en la precisión. Motivados por esto, proponemos REOrder, un marco de dos etapas para descubrir ordenaciones óptimas de parches para una tarea. Primero, derivamos un previo teórico de la información evaluando la compresibilidad de varias secuencias de parches. Luego, aprendemos una política sobre permutaciones optimizando una política de Plackett-Luce utilizando REINFORCE. Este enfoque permite un aprendizaje eficiente en un espacio combinatorio de permutaciones. REOrder mejora la precisión top-1 sobre el orden de fila principal en ImageNet-1K hasta en un 3.01% y en Functional Map of the World en un 13.35%.
English
Sequence models such as transformers require inputs to be represented as
one-dimensional sequences. In vision, this typically involves flattening images
using a fixed row-major (raster-scan) order. While full self-attention is
permutation-equivariant, modern long-sequence transformers increasingly rely on
architectural approximations that break this invariance and introduce
sensitivity to patch ordering. We show that patch order significantly affects
model performance in such settings, with simple alternatives like column-major
or Hilbert curves yielding notable accuracy shifts. Motivated by this, we
propose REOrder, a two-stage framework for discovering task-optimal patch
orderings. First, we derive an information-theoretic prior by evaluating the
compressibility of various patch sequences. Then, we learn a policy over
permutations by optimizing a Plackett-Luce policy using REINFORCE. This
approach enables efficient learning in a combinatorial permutation space.
REOrder improves top-1 accuracy over row-major ordering on ImageNet-1K by up to
3.01% and Functional Map of the World by 13.35%.Summary
AI-Generated Summary