ViTAR: Vision Transformer с любым разрешениемViTAR: Vision Transformer with Any Resolution
Этот документ рассматривает значительное препятствие, с которым сталкиваются Трансформеры Визуального Восприятия (ViTs): их ограниченную масштабируемость при различных разрешениях изображений. Обычно ViTs испытывают снижение производительности при обработке разрешений, отличных от тех, что были использованы во время обучения. Наша работа вводит два ключевых нововведения для решения этой проблемы. Во-первых, мы предлагаем новый модуль для динамической корректировки разрешения, разработанный с использованием одного блока Трансформера, специально для достижения высокоэффективной инкрементной интеграции токенов. Во-вторых, мы внедряем нечеткое позиционное кодирование в Трансформер Визуального Восприятия для обеспечения постоянного позиционного осознания при различных разрешениях, тем самым предотвращая переобучение на любом одном разрешении обучения. Наша полученная модель, ViTAR (Vision Transformer with Any Resolution), демонстрирует впечатляющую адаптивность, достигая точности 83,3\% на разрешении 1120x1120 и 80,4\% на разрешении 4032x4032, при снижении вычислительных затрат. ViTAR также показывает высокую производительность в задачах последующего обучения, таких как сегментация экземпляров и семантическая сегментация, и легко сочетается с техниками обучения без учителя, такими как Маскированный Автокодировщик. Наша работа предлагает экономически эффективное решение для улучшения масштабируемости разрешения ViTs, открывая путь к более универсальной и эффективной обработке изображений высокого разрешения.