Atlas: マルチスケールアテンションによる長文脈画像モデリングの改善
Atlas: Multi-Scale Attention Improves Long Context Image Modeling
March 16, 2025
著者: Kumar Krishna Agrawal, Long Lian, Longchao Liu, Natalia Harguindeguy, Boyi Li, Alexander Bick, Maggie Chung, Trevor Darrell, Adam Yala
cs.AI
要旨
大規模な画像を効率的にモデル化することは、機械学習における長年の課題です。この課題に対処するため、我々はマルチスケールアテンション(MSA)を提案します。MSAは、(i) マルチスケール表現、(ii) 双方向クロススケール通信という2つの主要なアイデアに基づいています。MSAは、画像を段階的に粗い特徴で表現するためにO(log N)のスケールを生成し、クロスアテンションを利用してスケール間で情報を伝播させます。次に、MSAに基づく新しいニューラルネットワークアーキテクチャであるAtlasを紹介します。Atlasは、高解像度版ImageNet 100における長文脈画像モデリングの計算性能トレードオフを大幅に改善することを実証しました。1024px解像度では、Atlas-Bは91.04%の精度を達成し、ConvNext-B(91.92%)に匹敵する性能を示しながら、4.3倍高速でした。Atlasは、FasterViTと比較して2.95倍高速で7.38%優れており、LongViTと比較して2.25倍高速で4.96%優れています。MambaVision-Sとの比較では、Atlas-Sは1024px、2048px、4096pxでそれぞれ5%、16%、32%高い精度を達成し、同様の実行時間を維持しました。実験の再現と事前学習済みモデルのコードはhttps://github.com/yalalab/atlasで公開されています。
English
Efficiently modeling massive images is a long-standing challenge in machine
learning. To this end, we introduce Multi-Scale Attention (MSA). MSA relies on
two key ideas, (i) multi-scale representations (ii) bi-directional cross-scale
communication. MSA creates O(log N) scales to represent the image across
progressively coarser features and leverages cross-attention to propagate
information across scales. We then introduce Atlas, a novel neural network
architecture based on MSA. We demonstrate that Atlas significantly improves the
compute-performance tradeoff of long-context image modeling in a
high-resolution variant of ImageNet 100. At 1024px resolution, Atlas-B achieves
91.04% accuracy, comparable to ConvNext-B (91.92%) while being 4.3x faster.
Atlas is 2.95x faster and 7.38% better than FasterViT, 2.25x faster and 4.96%
better than LongViT. In comparisons against MambaVision-S, we find Atlas-S
achieves 5%, 16% and 32% higher accuracy at 1024px, 2048px and 4096px
respectively, while obtaining similar runtimes. Code for reproducing our
experiments and pretrained models is available at
https://github.com/yalalab/atlas.Summary
AI-Generated Summary