ViTAR: Transformador Visual con Cualquier Resolución
ViTAR: Vision Transformer with Any Resolution
March 27, 2024
Autores: Qihang Fan, Quanzeng You, Xiaotian Han, Yongfei Liu, Yunzhe Tao, Huaibo Huang, Ran He, Hongxia Yang
cs.AI
Resumen
Este artículo aborda un desafío significativo que enfrentan los Transformers de Visión (ViTs): su escalabilidad limitada en diferentes resoluciones de imagen. Por lo general, los ViTs experimentan una disminución en el rendimiento al procesar resoluciones diferentes a las vistas durante el entrenamiento. Nuestro trabajo introduce dos innovaciones clave para abordar este problema. En primer lugar, proponemos un nuevo módulo para el ajuste dinámico de resolución, diseñado con un solo bloque Transformer, específicamente para lograr una integración incremental de tokens altamente eficiente. En segundo lugar, introducimos la codificación posicional difusa en el Transformer de Visión para proporcionar una conciencia posicional consistente en múltiples resoluciones, evitando así el sobreajuste a cualquier resolución de entrenamiento específica. Nuestro modelo resultante, ViTAR (Vision Transformer con Cualquier Resolución), demuestra una impresionante adaptabilidad, alcanzando un 83.3\% de precisión top-1 en una resolución de 1120x1120 y un 80.4\% de precisión en una resolución de 4032x4032, todo ello reduciendo los costos computacionales. ViTAR también muestra un fuerte rendimiento en tareas posteriores como la segmentación de instancias y semántica, y puede combinarse fácilmente con técnicas de aprendizaje autosupervisado como el AutoEncoder Enmascarado. Nuestro trabajo proporciona una solución rentable para mejorar la escalabilidad de resolución de los ViTs, allanando el camino para un procesamiento de imágenes de alta resolución más versátil y eficiente.
English
his paper tackles a significant challenge faced by Vision Transformers
(ViTs): their constrained scalability across different image resolutions.
Typically, ViTs experience a performance decline when processing resolutions
different from those seen during training. Our work introduces two key
innovations to address this issue. Firstly, we propose a novel module for
dynamic resolution adjustment, designed with a single Transformer block,
specifically to achieve highly efficient incremental token integration.
Secondly, we introduce fuzzy positional encoding in the Vision Transformer to
provide consistent positional awareness across multiple resolutions, thereby
preventing overfitting to any single training resolution. Our resulting model,
ViTAR (Vision Transformer with Any Resolution), demonstrates impressive
adaptability, achieving 83.3\% top-1 accuracy at a 1120x1120 resolution and
80.4\% accuracy at a 4032x4032 resolution, all while reducing computational
costs. ViTAR also shows strong performance in downstream tasks such as instance
and semantic segmentation and can easily combined with self-supervised learning
techniques like Masked AutoEncoder. Our work provides a cost-effective solution
for enhancing the resolution scalability of ViTs, paving the way for more
versatile and efficient high-resolution image processing.Summary
AI-Generated Summary