ChatPaper.aiChatPaper

Atlas: Multi-schaal aandacht verbetert modellering van afbeeldingen met lange context

Atlas: Multi-Scale Attention Improves Long Context Image Modeling

March 16, 2025
Auteurs: Kumar Krishna Agrawal, Long Lian, Longchao Liu, Natalia Harguindeguy, Boyi Li, Alexander Bick, Maggie Chung, Trevor Darrell, Adam Yala
cs.AI

Samenvatting

Het efficiënt modelleren van enorme afbeeldingen is een lang bestaande uitdaging in machine learning. Daarom introduceren we Multi-Scale Attention (MSA). MSA steunt op twee kernideeën: (i) multi-schaal representaties en (ii) bidirectionele communicatie tussen schalen. MSA creëert O(log N) schalen om de afbeelding weer te geven met steeds grovere kenmerken en maakt gebruik van cross-attention om informatie tussen schalen te verspreiden. Vervolgens introduceren we Atlas, een nieuwe neurale netwerkarchitectuur gebaseerd op MSA. We tonen aan dat Atlas de rekentijd-prestatieverhouding van lang-context afbeeldingsmodellering aanzienlijk verbetert in een hoog-resolutie variant van ImageNet 100. Bij een resolutie van 1024px behaalt Atlas-B een nauwkeurigheid van 91,04%, vergelijkbaar met ConvNext-B (91,92%) terwijl het 4,3x sneller is. Atlas is 2,95x sneller en 7,38% beter dan FasterViT, en 2,25x sneller en 4,96% beter dan LongViT. In vergelijking met MambaVision-S, behaalt Atlas-S respectievelijk 5%, 16% en 32% hogere nauwkeurigheid bij 1024px, 2048px en 4096px, terwijl het vergelijkbare uitvoeringstijden heeft. Code voor het reproduceren van onze experimenten en vooraf getrainde modellen is beschikbaar op https://github.com/yalalab/atlas.
English
Efficiently modeling massive images is a long-standing challenge in machine learning. To this end, we introduce Multi-Scale Attention (MSA). MSA relies on two key ideas, (i) multi-scale representations (ii) bi-directional cross-scale communication. MSA creates O(log N) scales to represent the image across progressively coarser features and leverages cross-attention to propagate information across scales. We then introduce Atlas, a novel neural network architecture based on MSA. We demonstrate that Atlas significantly improves the compute-performance tradeoff of long-context image modeling in a high-resolution variant of ImageNet 100. At 1024px resolution, Atlas-B achieves 91.04% accuracy, comparable to ConvNext-B (91.92%) while being 4.3x faster. Atlas is 2.95x faster and 7.38% better than FasterViT, 2.25x faster and 4.96% better than LongViT. In comparisons against MambaVision-S, we find Atlas-S achieves 5%, 16% and 32% higher accuracy at 1024px, 2048px and 4096px respectively, while obtaining similar runtimes. Code for reproducing our experiments and pretrained models is available at https://github.com/yalalab/atlas.

Summary

AI-Generated Summary

PDF112March 19, 2025