LSNet: Ver en grande, enfocar en pequeño
LSNet: See Large, Focus Small
March 29, 2025
Autores: Ao Wang, Hui Chen, Zijia Lin, Jungong Han, Guiguang Ding
cs.AI
Resumen
Los diseños de redes de visión, incluyendo las Redes Neuronales Convolucionales y los Transformers de Visión, han avanzado significativamente el campo de la visión por computadora. Sin embargo, sus cálculos complejos plantean desafíos para implementaciones prácticas, particularmente en aplicaciones en tiempo real. Para abordar este problema, los investigadores han explorado diversos diseños de redes ligeras y eficientes. No obstante, los modelos ligeros existentes utilizan predominantemente mecanismos de autoatención y convoluciones para la mezcla de tokens. Esta dependencia trae limitaciones en la efectividad y eficiencia en los procesos de percepción y agregación de las redes ligeras, dificultando el equilibrio entre rendimiento y eficiencia bajo presupuestos computacionales limitados. En este artículo, nos inspiramos en la capacidad dinámica de visión heteroescala inherente al sistema de visión humana eficiente y proponemos una estrategia de "Ver Grande, Enfocar Pequeño" para el diseño de redes de visión ligeras. Introducimos la convolución LS (Large-Small), que combina la percepción de núcleos grandes y la agregación de núcleos pequeños. Puede capturar eficientemente un amplio rango de información perceptual y lograr una agregación precisa de características para representaciones visuales dinámicas y complejas, permitiendo así un procesamiento competente de la información visual. Basándonos en la convolución LS, presentamos LSNet, una nueva familia de modelos ligeros. Experimentos exhaustivos demuestran que LSNet logra un rendimiento y eficiencia superiores a las redes ligeras existentes en diversas tareas de visión. Los códigos y modelos están disponibles en https://github.com/jameslahm/lsnet.
English
Vision network designs, including Convolutional Neural Networks and Vision
Transformers, have significantly advanced the field of computer vision. Yet,
their complex computations pose challenges for practical deployments,
particularly in real-time applications. To tackle this issue, researchers have
explored various lightweight and efficient network designs. However, existing
lightweight models predominantly leverage self-attention mechanisms and
convolutions for token mixing. This dependence brings limitations in
effectiveness and efficiency in the perception and aggregation processes of
lightweight networks, hindering the balance between performance and efficiency
under limited computational budgets. In this paper, we draw inspiration from
the dynamic heteroscale vision ability inherent in the efficient human vision
system and propose a ``See Large, Focus Small'' strategy for lightweight vision
network design. We introduce LS (Large-Small) convolution,
which combines large-kernel perception and small-kernel aggregation. It can
efficiently capture a wide range of perceptual information and achieve precise
feature aggregation for dynamic and complex visual representations, thus
enabling proficient processing of visual information. Based on LS convolution,
we present LSNet, a new family of lightweight models. Extensive experiments
demonstrate that LSNet achieves superior performance and efficiency over
existing lightweight networks in various vision tasks. Codes and models are
available at https://github.com/jameslahm/lsnet.Summary
AI-Generated Summary