LSNet: Großes sehen, Kleines fokussieren
LSNet: See Large, Focus Small
March 29, 2025
Autoren: Ao Wang, Hui Chen, Zijia Lin, Jungong Han, Guiguang Ding
cs.AI
Zusammenfassung
Entwürfe von Vision-Netzwerken, einschließlich Convolutional Neural Networks und Vision Transformers, haben das Feld der Computer Vision erheblich vorangetrieben. Dennoch stellen ihre komplexen Berechnungen Herausforderungen für praktische Anwendungen dar, insbesondere in Echtzeitanwendungen. Um dieses Problem zu lösen, haben Forscher verschiedene leichte und effiziente Netzwerkdesigns untersucht. Allerdings nutzen bestehende leichte Modelle überwiegend Self-Attention-Mechanismen und Faltungen für das Token-Mixing. Diese Abhängigkeit bringt Einschränkungen in der Effektivität und Effizienz bei den Wahrnehmungs- und Aggregationsprozessen von leichten Netzwerken mit sich, was das Gleichgewicht zwischen Leistung und Effizienz bei begrenzten Rechenbudgets behindert. In diesem Papier lassen wir uns von der dynamischen heteroskaligen Sehfähigkeit des effizienten menschlichen Sehsystems inspirieren und schlagen eine „See Large, Focus Small“-Strategie für das Design von leichten Vision-Netzwerken vor. Wir führen die LS (Large-Small)-Faltung ein, die großkernige Wahrnehmung und kleinkernige Aggregation kombiniert. Sie kann effizient ein breites Spektrum an Wahrnehmungsinformationen erfassen und präzise Merkmalsaggregation für dynamische und komplexe visuelle Darstellungen erreichen, wodurch eine kompetente Verarbeitung visueller Informationen ermöglicht wird. Basierend auf der LS-Faltung präsentieren wir LSNet, eine neue Familie von leichten Modellen. Umfangreiche Experimente zeigen, dass LSNet in verschiedenen Vision-Aufgaben eine überlegene Leistung und Effizienz gegenüber bestehenden leichten Netzwerken erzielt. Codes und Modelle sind unter https://github.com/jameslahm/lsnet verfügbar.
English
Vision network designs, including Convolutional Neural Networks and Vision
Transformers, have significantly advanced the field of computer vision. Yet,
their complex computations pose challenges for practical deployments,
particularly in real-time applications. To tackle this issue, researchers have
explored various lightweight and efficient network designs. However, existing
lightweight models predominantly leverage self-attention mechanisms and
convolutions for token mixing. This dependence brings limitations in
effectiveness and efficiency in the perception and aggregation processes of
lightweight networks, hindering the balance between performance and efficiency
under limited computational budgets. In this paper, we draw inspiration from
the dynamic heteroscale vision ability inherent in the efficient human vision
system and propose a ``See Large, Focus Small'' strategy for lightweight vision
network design. We introduce LS (Large-Small) convolution,
which combines large-kernel perception and small-kernel aggregation. It can
efficiently capture a wide range of perceptual information and achieve precise
feature aggregation for dynamic and complex visual representations, thus
enabling proficient processing of visual information. Based on LS convolution,
we present LSNet, a new family of lightweight models. Extensive experiments
demonstrate that LSNet achieves superior performance and efficiency over
existing lightweight networks in various vision tasks. Codes and models are
available at https://github.com/jameslahm/lsnet.Summary
AI-Generated Summary