ChatPaper.aiChatPaper

LSNet: Видеть общее, фокусироваться на частном

LSNet: See Large, Focus Small

March 29, 2025
Авторы: Ao Wang, Hui Chen, Zijia Lin, Jungong Han, Guiguang Ding
cs.AI

Аннотация

Архитектуры сетей для обработки изображений, включая сверточные нейронные сети и Vision Transformers, значительно продвинули область компьютерного зрения. Однако их сложные вычисления создают трудности для практического применения, особенно в задачах, требующих работы в реальном времени. Для решения этой проблемы исследователи изучили различные облегченные и эффективные архитектуры сетей. Тем не менее, существующие облегченные модели в основном полагаются на механизмы самовнимания и свертки для смешивания токенов. Эта зависимость накладывает ограничения на эффективность и производительность процессов восприятия и агрегации в облегченных сетях, затрудняя достижение баланса между качеством и эффективностью при ограниченных вычислительных ресурсах. В данной работе мы вдохновляемся динамической способностью человеческой зрительной системы к восприятию на различных масштабах и предлагаем стратегию «Видеть крупное, фокусироваться на мелком» для проектирования облегченных сетей обработки изображений. Мы представляем LS-свертку (Large-Small), которая сочетает восприятие с использованием больших ядер и агрегацию с использованием малых ядер. Она позволяет эффективно захватывать широкий спектр перцептивной информации и достигать точной агрегации признаков для динамических и сложных визуальных представлений, обеспечивая профессиональную обработку визуальной информации. На основе LS-свертки мы представляем LSNet — новое семейство облегченных моделей. Многочисленные эксперименты демонстрируют, что LSNet превосходит существующие облегченные сети по производительности и эффективности в различных задачах компьютерного зрения. Коды и модели доступны по адресу https://github.com/jameslahm/lsnet.
English
Vision network designs, including Convolutional Neural Networks and Vision Transformers, have significantly advanced the field of computer vision. Yet, their complex computations pose challenges for practical deployments, particularly in real-time applications. To tackle this issue, researchers have explored various lightweight and efficient network designs. However, existing lightweight models predominantly leverage self-attention mechanisms and convolutions for token mixing. This dependence brings limitations in effectiveness and efficiency in the perception and aggregation processes of lightweight networks, hindering the balance between performance and efficiency under limited computational budgets. In this paper, we draw inspiration from the dynamic heteroscale vision ability inherent in the efficient human vision system and propose a ``See Large, Focus Small'' strategy for lightweight vision network design. We introduce LS (Large-Small) convolution, which combines large-kernel perception and small-kernel aggregation. It can efficiently capture a wide range of perceptual information and achieve precise feature aggregation for dynamic and complex visual representations, thus enabling proficient processing of visual information. Based on LS convolution, we present LSNet, a new family of lightweight models. Extensive experiments demonstrate that LSNet achieves superior performance and efficiency over existing lightweight networks in various vision tasks. Codes and models are available at https://github.com/jameslahm/lsnet.

Summary

AI-Generated Summary

PDF93April 3, 2025