LSNet: Zie Groot, Focus Klein
LSNet: See Large, Focus Small
March 29, 2025
Auteurs: Ao Wang, Hui Chen, Zijia Lin, Jungong Han, Guiguang Ding
cs.AI
Samenvatting
Visienetwerkontwerpen, waaronder Convolutionele Neurale Netwerken en Vision Transformers, hebben het vakgebied van computervisie aanzienlijk vooruitgebracht. Toch vormen hun complexe berekeningen uitdagingen voor praktische implementaties, met name in realtime-toepassingen. Om dit probleem aan te pakken, hebben onderzoekers diverse lichtgewicht en efficiënte netwerkontwerpen verkend. Bestaande lichtgewicht modellen maken echter voornamelijk gebruik van self-attention-mechanismen en convoluties voor tokenmixing. Deze afhankelijkheid brengt beperkingen met zich mee in de effectiviteit en efficiëntie van de perceptie- en aggregatieprocessen in lichtgewicht netwerken, wat de balans tussen prestaties en efficiëntie onder beperkte rekenbudgetten belemmert. In dit artikel putten we inspiratie uit het dynamische heteroschaal-visievermogen dat inherent is aan het efficiënte menselijke visiesysteem en stellen we een "See Large, Focus Small"-strategie voor voor het ontwerp van lichtgewicht visienetwerken. We introduceren LS (Large-Small) convolutie, die grote-kernelperceptie combineert met kleine-kernelaggregatie. Het kan efficiënt een breed scala aan perceptuele informatie vastleggen en precieze feature-aggregatie bereiken voor dynamische en complexe visuele representaties, waardoor het bekwame verwerking van visuele informatie mogelijk maakt. Op basis van LS-convolutie presenteren we LSNet, een nieuwe familie van lichtgewicht modellen. Uitgebreide experimenten tonen aan dat LSNet superieure prestaties en efficiëntie bereikt in vergelijking met bestaande lichtgewicht netwerken in diverse visietaken. Codes en modellen zijn beschikbaar op https://github.com/jameslahm/lsnet.
English
Vision network designs, including Convolutional Neural Networks and Vision
Transformers, have significantly advanced the field of computer vision. Yet,
their complex computations pose challenges for practical deployments,
particularly in real-time applications. To tackle this issue, researchers have
explored various lightweight and efficient network designs. However, existing
lightweight models predominantly leverage self-attention mechanisms and
convolutions for token mixing. This dependence brings limitations in
effectiveness and efficiency in the perception and aggregation processes of
lightweight networks, hindering the balance between performance and efficiency
under limited computational budgets. In this paper, we draw inspiration from
the dynamic heteroscale vision ability inherent in the efficient human vision
system and propose a ``See Large, Focus Small'' strategy for lightweight vision
network design. We introduce LS (Large-Small) convolution,
which combines large-kernel perception and small-kernel aggregation. It can
efficiently capture a wide range of perceptual information and achieve precise
feature aggregation for dynamic and complex visual representations, thus
enabling proficient processing of visual information. Based on LS convolution,
we present LSNet, a new family of lightweight models. Extensive experiments
demonstrate that LSNet achieves superior performance and efficiency over
existing lightweight networks in various vision tasks. Codes and models are
available at https://github.com/jameslahm/lsnet.Summary
AI-Generated Summary