ViTAR: Transformador Visual con Cualquier ResoluciónViTAR: Vision Transformer with Any Resolution
Este artículo aborda un desafío significativo que enfrentan los Transformers de Visión (ViTs): su escalabilidad limitada en diferentes resoluciones de imagen. Por lo general, los ViTs experimentan una disminución en el rendimiento al procesar resoluciones diferentes a las vistas durante el entrenamiento. Nuestro trabajo introduce dos innovaciones clave para abordar este problema. En primer lugar, proponemos un nuevo módulo para el ajuste dinámico de resolución, diseñado con un solo bloque Transformer, específicamente para lograr una integración incremental de tokens altamente eficiente. En segundo lugar, introducimos la codificación posicional difusa en el Transformer de Visión para proporcionar una conciencia posicional consistente en múltiples resoluciones, evitando así el sobreajuste a cualquier resolución de entrenamiento específica. Nuestro modelo resultante, ViTAR (Vision Transformer con Cualquier Resolución), demuestra una impresionante adaptabilidad, alcanzando un 83.3\% de precisión top-1 en una resolución de 1120x1120 y un 80.4\% de precisión en una resolución de 4032x4032, todo ello reduciendo los costos computacionales. ViTAR también muestra un fuerte rendimiento en tareas posteriores como la segmentación de instancias y semántica, y puede combinarse fácilmente con técnicas de aprendizaje autosupervisado como el AutoEncoder Enmascarado. Nuestro trabajo proporciona una solución rentable para mejorar la escalabilidad de resolución de los ViTs, allanando el camino para un procesamiento de imágenes de alta resolución más versátil y eficiente.