Das Neuanordnen von Patches verbessert Vision-Modelle
REOrdering Patches Improves Vision Models
May 29, 2025
Autoren: Declan Kutscher, David M. Chan, Yutong Bai, Trevor Darrell, Ritwik Gupta
cs.AI
Zusammenfassung
Sequenzmodelle wie Transformer benötigen Eingaben, die als eindimensionale Sequenzen dargestellt werden. In der Bildverarbeitung erfolgt dies typischerweise durch das Abflachen von Bildern in einer festen Reihenfolge (Raster-Scan). Während die vollständige Selbstaufmerksamkeit permutationsäquivariant ist, verlassen sich moderne Transformer für lange Sequenzen zunehmend auf architektonische Approximationen, die diese Invarianz brechen und eine Empfindlichkeit gegenüber der Reihenfolge der Bildausschnitte (Patches) einführen. Wir zeigen, dass die Reihenfolge der Patches in solchen Kontexten die Modellleistung erheblich beeinflusst, wobei einfache Alternativen wie die Spaltenreihenfolge oder Hilbert-Kurven deutliche Genauigkeitsverschiebungen bewirken. Motiviert durch diese Beobachtung schlagen wir REOrder vor, ein zweistufiges Framework zur Entdeckung von aufgabenoptimalen Patch-Reihenfolgen. Zunächst leiten wir ein informationstheoretisches Prior ab, indem wir die Komprimierbarkeit verschiedener Patch-Sequenzen bewerten. Anschließend lernen wir eine Policy über Permutationen, indem wir eine Plackett-Luce-Policy mithilfe von REINFORCE optimieren. Dieser Ansatz ermöglicht effizientes Lernen in einem kombinatorischen Permutationsraum. REOrder verbessert die Top-1-Genauigkeit gegenüber der Reihenfolge im Raster-Scan auf ImageNet-1K um bis zu 3,01 % und auf der Functional Map of the World um 13,35 %.
English
Sequence models such as transformers require inputs to be represented as
one-dimensional sequences. In vision, this typically involves flattening images
using a fixed row-major (raster-scan) order. While full self-attention is
permutation-equivariant, modern long-sequence transformers increasingly rely on
architectural approximations that break this invariance and introduce
sensitivity to patch ordering. We show that patch order significantly affects
model performance in such settings, with simple alternatives like column-major
or Hilbert curves yielding notable accuracy shifts. Motivated by this, we
propose REOrder, a two-stage framework for discovering task-optimal patch
orderings. First, we derive an information-theoretic prior by evaluating the
compressibility of various patch sequences. Then, we learn a policy over
permutations by optimizing a Plackett-Luce policy using REINFORCE. This
approach enables efficient learning in a combinatorial permutation space.
REOrder improves top-1 accuracy over row-major ordering on ImageNet-1K by up to
3.01% and Functional Map of the World by 13.35%.Summary
AI-Generated Summary