Das Neuanordnen von Patches verbessert Vision-Modelle

papers.abstract

Sequenzmodelle wie Transformer benötigen Eingaben, die als eindimensionale Sequenzen dargestellt werden. In der Bildverarbeitung erfolgt dies typischerweise durch das Abflachen von Bildern in einer festen Reihenfolge (Raster-Scan). Während die vollständige Selbstaufmerksamkeit permutationsäquivariant ist, verlassen sich moderne Transformer für lange Sequenzen zunehmend auf architektonische Approximationen, die diese Invarianz brechen und eine Empfindlichkeit gegenüber der Reihenfolge der Bildausschnitte (Patches) einführen. Wir zeigen, dass die Reihenfolge der Patches in solchen Kontexten die Modellleistung erheblich beeinflusst, wobei einfache Alternativen wie die Spaltenreihenfolge oder Hilbert-Kurven deutliche Genauigkeitsverschiebungen bewirken. Motiviert durch diese Beobachtung schlagen wir REOrder vor, ein zweistufiges Framework zur Entdeckung von aufgabenoptimalen Patch-Reihenfolgen. Zunächst leiten wir ein informationstheoretisches Prior ab, indem wir die Komprimierbarkeit verschiedener Patch-Sequenzen bewerten. Anschließend lernen wir eine Policy über Permutationen, indem wir eine Plackett-Luce-Policy mithilfe von REINFORCE optimieren. Dieser Ansatz ermöglicht effizientes Lernen in einem kombinatorischen Permutationsraum. REOrder verbessert die Top-1-Genauigkeit gegenüber der Reihenfolge im Raster-Scan auf ImageNet-1K um bis zu 3,01 % und auf der Functional Map of the World um 13,35 %.

English

Sequence models such as transformers require inputs to be represented as one-dimensional sequences. In vision, this typically involves flattening images using a fixed row-major (raster-scan) order. While full self-attention is permutation-equivariant, modern long-sequence transformers increasingly rely on architectural approximations that break this invariance and introduce sensitivity to patch ordering. We show that patch order significantly affects model performance in such settings, with simple alternatives like column-major or Hilbert curves yielding notable accuracy shifts. Motivated by this, we propose REOrder, a two-stage framework for discovering task-optimal patch orderings. First, we derive an information-theoretic prior by evaluating the compressibility of various patch sequences. Then, we learn a policy over permutations by optimizing a Plackett-Luce policy using REINFORCE. This approach enables efficient learning in a combinatorial permutation space. REOrder improves top-1 accuracy over row-major ordering on ImageNet-1K by up to 3.01% and Functional Map of the World by 13.35%.

Das Neuanordnen von Patches verbessert Vision-Modelle

REOrdering Patches Improves Vision Models

papers.abstract

Support