ViTAR:具有任意解析度的視覺TransformerViTAR: Vision Transformer with Any Resolution
本文探討了視覺Transformer(ViTs)所面臨的一個重要挑戰:它們在不同圖像解析度下的受限可擴展性。通常,當ViTs處理與訓練過程中所見解析度不同的圖像時,性能會下降。我們的工作引入了兩個關鍵創新來解決這個問題。首先,我們提出了一個新穎的模塊,用單個Transformer塊設計,專門用於實現高效的增量式標記集成,以解決動態解析度調整的問題。其次,我們在視覺Transformer中引入了模糊位置編碼,以在多個解析度下提供一致的位置感知,從而防止對任何單一訓練解析度的過度擬合。我們的結果模型ViTAR(具有任意解析度的視覺Transformer)展示了出色的適應性,在1120x1120解析度下達到83.3%的top-1準確率,在4032x4032解析度下達到80.4%的準確率,同時降低了計算成本。ViTAR在下游任務中也表現出色,如實例分割和語義分割,並且可以輕鬆結合自監督學習技術,如遮罩自編碼器。我們的工作為增強ViTs的解析度可擴展性提供了一個具有成本效益的解決方案,為更多多功能和高效的高解析度圖像處理打開了道路。