ViTAR: Vision Transformer com Qualquer Resolução
ViTAR: Vision Transformer with Any Resolution
March 27, 2024
Autores: Qihang Fan, Quanzeng You, Xiaotian Han, Yongfei Liu, Yunzhe Tao, Huaibo Huang, Ran He, Hongxia Yang
cs.AI
Resumo
Este artigo aborda um desafio significativo enfrentado pelos Vision Transformers (ViTs): sua escalabilidade limitada em diferentes resoluções de imagem. Normalmente, os ViTs sofrem uma queda de desempenho ao processar resoluções diferentes daquelas vistas durante o treinamento. Nosso trabalho introduz duas inovações principais para resolver esse problema. Primeiramente, propomos um novo módulo para ajuste dinâmico de resolução, projetado com um único bloco Transformer, especificamente para alcançar uma integração incremental de tokens altamente eficiente. Em segundo lugar, introduzimos a codificação posicional difusa no Vision Transformer para fornecer consciência posicional consistente em múltiplas resoluções, evitando assim o overfitting em qualquer resolução única de treinamento. Nosso modelo resultante, ViTAR (Vision Transformer com Qualquer Resolução), demonstra uma impressionante adaptabilidade, alcançando 83,3% de precisão top-1 em uma resolução de 1120x1120 e 80,4% de precisão em uma resolução de 4032x4032, tudo isso enquanto reduz os custos computacionais. O ViTAR também mostra um desempenho forte em tarefas subsequentes, como segmentação de instâncias e semântica, e pode ser facilmente combinado com técnicas de aprendizado auto-supervisionado, como o Masked AutoEncoder. Nosso trabalho fornece uma solução econômica para melhorar a escalabilidade de resolução dos ViTs, abrindo caminho para um processamento de imagens de alta resolução mais versátil e eficiente.
English
his paper tackles a significant challenge faced by Vision Transformers
(ViTs): their constrained scalability across different image resolutions.
Typically, ViTs experience a performance decline when processing resolutions
different from those seen during training. Our work introduces two key
innovations to address this issue. Firstly, we propose a novel module for
dynamic resolution adjustment, designed with a single Transformer block,
specifically to achieve highly efficient incremental token integration.
Secondly, we introduce fuzzy positional encoding in the Vision Transformer to
provide consistent positional awareness across multiple resolutions, thereby
preventing overfitting to any single training resolution. Our resulting model,
ViTAR (Vision Transformer with Any Resolution), demonstrates impressive
adaptability, achieving 83.3\% top-1 accuracy at a 1120x1120 resolution and
80.4\% accuracy at a 4032x4032 resolution, all while reducing computational
costs. ViTAR also shows strong performance in downstream tasks such as instance
and semantic segmentation and can easily combined with self-supervised learning
techniques like Masked AutoEncoder. Our work provides a cost-effective solution
for enhancing the resolution scalability of ViTs, paving the way for more
versatile and efficient high-resolution image processing.