Mamba-YOLO-World: Combinando YOLO-World con Mamba para la Detección de Vocabulario Abierto
Mamba-YOLO-World: Marrying YOLO-World with Mamba for Open-Vocabulary Detection
September 13, 2024
Autores: Haoxuan Wang, Qingdong He, Jinlong Peng, Hao Yang, Mingmin Chi, Yabiao Wang
cs.AI
Resumen
La detección de vocabulario abierto (DVA) tiene como objetivo detectar objetos más allá de un conjunto predefinido de categorías. Como un modelo pionero que incorpora la serie YOLO en la DVA, YOLO-World es adecuado para escenarios que priorizan la velocidad y la eficiencia. Sin embargo, su rendimiento se ve obstaculizado por su mecanismo de fusión de características en el cuello, que provoca una complejidad cuadrática y campos receptivos guiados limitados. Para abordar estas limitaciones, presentamos Mamba-YOLO-World, un modelo novedoso de DVA basado en YOLO que emplea la propuesta Red de Agregación de Ruta de Fusión Mamba (MambaFusion-PAN) como su arquitectura en el cuello. Específicamente, introducimos un innovador mecanismo de fusión de características basado en un Modelo de Espacio de Estados que consta de un algoritmo de Escaneo Selectivo Paralelo-Guiado y un algoritmo de Escaneo Selectivo Serial-Guiado con complejidad lineal y campos receptivos guiados globalmente. Aprovecha secuencias de entrada multimodales y estados ocultos de mamba para guiar el proceso de escaneo selectivo. Los experimentos demuestran que nuestro modelo supera al YOLO-World original en los conjuntos de datos COCO y LVIS tanto en configuraciones de cero disparos como de ajuste fino, manteniendo parámetros y FLOPs comparables. Además, supera a los métodos existentes de DVA de última generación con menos parámetros y FLOPs.
English
Open-vocabulary detection (OVD) aims to detect objects beyond a predefined
set of categories. As a pioneering model incorporating the YOLO series into
OVD, YOLO-World is well-suited for scenarios prioritizing speed and
efficiency.However, its performance is hindered by its neck feature fusion
mechanism, which causes the quadratic complexity and the limited guided
receptive fields.To address these limitations, we present Mamba-YOLO-World, a
novel YOLO-based OVD model employing the proposed MambaFusion Path Aggregation
Network (MambaFusion-PAN) as its neck architecture. Specifically, we introduce
an innovative State Space Model-based feature fusion mechanism consisting of a
Parallel-Guided Selective Scan algorithm and a Serial-Guided Selective Scan
algorithm with linear complexity and globally guided receptive fields. It
leverages multi-modal input sequences and mamba hidden states to guide the
selective scanning process.Experiments demonstrate that our model outperforms
the original YOLO-World on the COCO and LVIS benchmarks in both zero-shot and
fine-tuning settings while maintaining comparable parameters and FLOPs.
Additionally, it surpasses existing state-of-the-art OVD methods with fewer
parameters and FLOPs.Summary
AI-Generated Summary