ViTAR:具有任意分辨率的视觉TransformerViTAR: Vision Transformer with Any Resolution
本文解决了视觉Transformer(ViTs)面临的一个重要挑战:它们在不同图像分辨率下的受限可扩展性问题。通常,ViTs在处理与训练过程中看到的分辨率不同的图像时会出现性能下降。我们的工作引入了两个关键创新来解决这个问题。首先,我们提出了一个用单个Transformer块设计的用于动态分辨率调整的新型模块,旨在实现高效的增量式标记集成。其次,我们在视觉Transformer中引入了模糊位置编码,以实现跨多个分辨率的一致位置感知,从而防止过度拟合到任何单一训练分辨率。我们的最终模型ViTAR(任意分辨率视觉Transformer)展现出令人印象深刻的适应性,在1120x1120分辨率下实现83.3\%的top-1准确率,在4032x4032分辨率下实现80.4\%的准确率,同时降低了计算成本。ViTAR在实例分割、语义分割等下游任务中表现出色,并且可以轻松地与自监督学习技术(如Masked AutoEncoder)结合使用。我们的工作为增强ViTs的分辨率可扩展性提供了一种经济高效的解决方案,为更多多功能且高效的高分辨率图像处理铺平了道路。