LSNet: Veja Grande, Foque Pequeno
LSNet: See Large, Focus Small
March 29, 2025
Autores: Ao Wang, Hui Chen, Zijia Lin, Jungong Han, Guiguang Ding
cs.AI
Resumo
Os designs de redes de visão, incluindo Redes Neurais Convolucionais e Transformers de Visão, avançaram significativamente o campo da visão computacional. No entanto, seus cálculos complexos apresentam desafios para implantações práticas, especialmente em aplicações em tempo real. Para enfrentar esse problema, os pesquisadores exploraram diversos designs de redes leves e eficientes. Contudo, os modelos leves existentes utilizam predominantemente mecanismos de autoatenção e convoluções para a mistura de tokens. Essa dependência traz limitações em eficácia e eficiência nos processos de percepção e agregação das redes leves, dificultando o equilíbrio entre desempenho e eficiência sob orçamentos computacionais limitados. Neste artigo, inspiramo-nos na capacidade dinâmica de visão heteroescala inerente ao eficiente sistema de visão humana e propomos uma estratégia "Ver Grande, Focar no Pequeno" para o design de redes de visão leves. Introduzimos a convolução LS (Large-Small), que combina percepção de kernel grande e agregação de kernel pequeno. Ela pode capturar eficientemente uma ampla gama de informações perceptuais e alcançar uma agregação precisa de características para representações visuais dinâmicas e complexas, permitindo assim um processamento proficiente de informações visuais. Com base na convolução LS, apresentamos a LSNet, uma nova família de modelos leves. Experimentos extensivos demonstram que a LSNet alcança desempenho e eficiência superiores em comparação com as redes leves existentes em diversas tarefas de visão. Códigos e modelos estão disponíveis em https://github.com/jameslahm/lsnet.
English
Vision network designs, including Convolutional Neural Networks and Vision
Transformers, have significantly advanced the field of computer vision. Yet,
their complex computations pose challenges for practical deployments,
particularly in real-time applications. To tackle this issue, researchers have
explored various lightweight and efficient network designs. However, existing
lightweight models predominantly leverage self-attention mechanisms and
convolutions for token mixing. This dependence brings limitations in
effectiveness and efficiency in the perception and aggregation processes of
lightweight networks, hindering the balance between performance and efficiency
under limited computational budgets. In this paper, we draw inspiration from
the dynamic heteroscale vision ability inherent in the efficient human vision
system and propose a ``See Large, Focus Small'' strategy for lightweight vision
network design. We introduce LS (Large-Small) convolution,
which combines large-kernel perception and small-kernel aggregation. It can
efficiently capture a wide range of perceptual information and achieve precise
feature aggregation for dynamic and complex visual representations, thus
enabling proficient processing of visual information. Based on LS convolution,
we present LSNet, a new family of lightweight models. Extensive experiments
demonstrate that LSNet achieves superior performance and efficiency over
existing lightweight networks in various vision tasks. Codes and models are
available at https://github.com/jameslahm/lsnet.Summary
AI-Generated Summary