LSNet : Voir grand, se concentrer sur le petit
LSNet: See Large, Focus Small
March 29, 2025
Auteurs: Ao Wang, Hui Chen, Zijia Lin, Jungong Han, Guiguang Ding
cs.AI
Résumé
Les architectures de réseaux de vision, incluant les réseaux de neurones convolutifs et les Vision Transformers, ont considérablement fait progresser le domaine de la vision par ordinateur. Cependant, leurs calculs complexes posent des défis pour les déploiements pratiques, en particulier dans les applications en temps réel. Pour résoudre ce problème, les chercheurs ont exploré diverses conceptions de réseaux légers et efficaces. Néanmoins, les modèles légers existants exploitent principalement des mécanismes d'auto-attention et des convolutions pour le mélange de tokens. Cette dépendance entraîne des limitations en termes d'efficacité et de performance dans les processus de perception et d'agrégation des réseaux légers, compromettant l'équilibre entre performance et efficacité sous des budgets de calcul limités. Dans cet article, nous nous inspirons de la capacité visuelle hétéroscale dynamique inhérente au système visuel humain efficace et proposons une stratégie « Voir Large, Se Concentrer sur le Petit » pour la conception de réseaux de vision légers. Nous introduisons la convolution LS (Large-Small), qui combine la perception à noyau large et l'agrégation à noyau petit. Elle permet de capturer efficacement une large gamme d'informations perceptuelles et d'atteindre une agrégation précise des caractéristiques pour des représentations visuelles dynamiques et complexes, permettant ainsi un traitement compétent de l'information visuelle. Basée sur la convolution LS, nous présentons LSNet, une nouvelle famille de modèles légers. Des expériences approfondies démontrent que LSNet atteint des performances et une efficacité supérieures par rapport aux réseaux légers existants dans diverses tâches de vision. Les codes et modèles sont disponibles à l'adresse https://github.com/jameslahm/lsnet.
English
Vision network designs, including Convolutional Neural Networks and Vision
Transformers, have significantly advanced the field of computer vision. Yet,
their complex computations pose challenges for practical deployments,
particularly in real-time applications. To tackle this issue, researchers have
explored various lightweight and efficient network designs. However, existing
lightweight models predominantly leverage self-attention mechanisms and
convolutions for token mixing. This dependence brings limitations in
effectiveness and efficiency in the perception and aggregation processes of
lightweight networks, hindering the balance between performance and efficiency
under limited computational budgets. In this paper, we draw inspiration from
the dynamic heteroscale vision ability inherent in the efficient human vision
system and propose a ``See Large, Focus Small'' strategy for lightweight vision
network design. We introduce LS (Large-Small) convolution,
which combines large-kernel perception and small-kernel aggregation. It can
efficiently capture a wide range of perceptual information and achieve precise
feature aggregation for dynamic and complex visual representations, thus
enabling proficient processing of visual information. Based on LS convolution,
we present LSNet, a new family of lightweight models. Extensive experiments
demonstrate that LSNet achieves superior performance and efficiency over
existing lightweight networks in various vision tasks. Codes and models are
available at https://github.com/jameslahm/lsnet.Summary
AI-Generated Summary