Переупорядочивание патчей улучшает модели компьютерного зрения

Аннотация

Последовательные модели, такие как трансформеры, требуют, чтобы входные данные были представлены в виде одномерных последовательностей. В задачах компьютерного зрения это обычно включает преобразование изображений в одномерный формат с использованием фиксированного порядка построчного сканирования (растрового порядка). Хотя полное самовнимание является перестановочно-инвариантным, современные трансформеры для работы с длинными последовательностями всё чаще полагаются на архитектурные аппроксимации, которые нарушают эту инвариантность и вводят чувствительность к порядку патчей. Мы показываем, что порядок патчей существенно влияет на производительность модели в таких условиях, причём простые альтернативы, такие как порядок по столбцам или кривые Гильберта, приводят к заметным изменениям точности. Вдохновлённые этим, мы предлагаем REOrder — двухэтапную структуру для поиска оптимального порядка патчей для конкретной задачи. Сначала мы выводим информационно-теоретический априор, оценивая сжимаемость различных последовательностей патчей. Затем мы обучаем политику над перестановками, оптимизируя политику Плэккетта-Льюса с использованием алгоритма REINFORCE. Этот подход позволяет эффективно обучаться в комбинаторном пространстве перестановок. REOrder улучшает точность top-1 по сравнению с порядком построчного сканирования на ImageNet-1K до 3,01% и на Functional Map of the World на 13,35%.

English

Sequence models such as transformers require inputs to be represented as one-dimensional sequences. In vision, this typically involves flattening images using a fixed row-major (raster-scan) order. While full self-attention is permutation-equivariant, modern long-sequence transformers increasingly rely on architectural approximations that break this invariance and introduce sensitivity to patch ordering. We show that patch order significantly affects model performance in such settings, with simple alternatives like column-major or Hilbert curves yielding notable accuracy shifts. Motivated by this, we propose REOrder, a two-stage framework for discovering task-optimal patch orderings. First, we derive an information-theoretic prior by evaluating the compressibility of various patch sequences. Then, we learn a policy over permutations by optimizing a Plackett-Luce policy using REINFORCE. This approach enables efficient learning in a combinatorial permutation space. REOrder improves top-1 accuracy over row-major ordering on ImageNet-1K by up to 3.01% and Functional Map of the World by 13.35%.

Переупорядочивание патчей улучшает модели компьютерного зрения

REOrdering Patches Improves Vision Models

Аннотация

Support