ChatPaper.aiChatPaper

Atlas: L'attenzione multi-scala migliora la modellazione di immagini con contesto esteso

Atlas: Multi-Scale Attention Improves Long Context Image Modeling

March 16, 2025
Autori: Kumar Krishna Agrawal, Long Lian, Longchao Liu, Natalia Harguindeguy, Boyi Li, Alexander Bick, Maggie Chung, Trevor Darrell, Adam Yala
cs.AI

Abstract

Modellare in modo efficiente immagini di grandi dimensioni è una sfida di lunga data nel campo dell'apprendimento automatico. A tal fine, introduciamo il Multi-Scale Attention (MSA). MSA si basa su due idee chiave: (i) rappresentazioni multi-scala e (ii) comunicazione bidirezionale tra scale. MSA crea O(log N) scale per rappresentare l'immagine attraverso caratteristiche progressivamente più grossolane e sfrutta l'attenzione incrociata per propagare le informazioni tra le scale. Introduciamo quindi Atlas, una nuova architettura di rete neurale basata su MSA. Dimostriamo che Atlas migliora significativamente il compromesso tra calcolo e prestazioni nella modellazione di immagini con contesto lungo in una variante ad alta risoluzione di ImageNet 100. A una risoluzione di 1024px, Atlas-B raggiunge un'accuratezza del 91,04%, paragonabile a ConvNext-B (91,92%) pur essendo 4,3 volte più veloce. Atlas è 2,95 volte più veloce e 7,38% migliore di FasterViT, e 2,25 volte più veloce e 4,96% migliore di LongViT. Nei confronti con MambaVision-S, Atlas-S raggiunge un'accuratezza superiore rispettivamente del 5%, 16% e 32% a 1024px, 2048px e 4096px, pur ottenendo tempi di esecuzione simili. Il codice per riprodurre i nostri esperimenti e i modelli pre-addestrati è disponibile all'indirizzo https://github.com/yalalab/atlas.
English
Efficiently modeling massive images is a long-standing challenge in machine learning. To this end, we introduce Multi-Scale Attention (MSA). MSA relies on two key ideas, (i) multi-scale representations (ii) bi-directional cross-scale communication. MSA creates O(log N) scales to represent the image across progressively coarser features and leverages cross-attention to propagate information across scales. We then introduce Atlas, a novel neural network architecture based on MSA. We demonstrate that Atlas significantly improves the compute-performance tradeoff of long-context image modeling in a high-resolution variant of ImageNet 100. At 1024px resolution, Atlas-B achieves 91.04% accuracy, comparable to ConvNext-B (91.92%) while being 4.3x faster. Atlas is 2.95x faster and 7.38% better than FasterViT, 2.25x faster and 4.96% better than LongViT. In comparisons against MambaVision-S, we find Atlas-S achieves 5%, 16% and 32% higher accuracy at 1024px, 2048px and 4096px respectively, while obtaining similar runtimes. Code for reproducing our experiments and pretrained models is available at https://github.com/yalalab/atlas.
PDF122March 19, 2025