Mamba-YOLO-World : Mariage de YOLO-World avec Mamba pour la Détection à Vocabulaire Ouvert

papers.abstract

La détection à vocabulaire ouvert (DVO) vise à détecter des objets au-delà d'un ensemble prédéfini de catégories. En tant que modèle novateur intégrant la série YOLO dans la DVO, YOLO-World est bien adapté aux scénarios privilégiant la vitesse et l'efficacité. Cependant, ses performances sont entravées par son mécanisme de fusion de caractéristiques au niveau du cou, ce qui entraîne une complexité quadratique et des champs récepteurs guidés limités. Pour remédier à ces limitations, nous présentons Mamba-YOLO-World, un nouveau modèle DVO basé sur YOLO qui utilise le réseau d'agrégation de chemins MambaFusion (MambaFusion-PAN) proposé comme architecture au niveau du cou. Plus précisément, nous introduisons un mécanisme innovant de fusion de caractéristiques basé sur un modèle d'espace d'états comprenant un algorithme de balayage sélectif parallèle guidé et un algorithme de balayage sélectif sériel avec une complexité linéaire et des champs récepteurs guidés globalement. Il exploite des séquences d'entrée multimodales et des états cachés de mamba pour guider le processus de balayage sélectif. Les expériences démontrent que notre modèle surpasse le YOLO-World d'origine sur les référentiels COCO et LVIS, à la fois dans des configurations de zéro-shot et de fine-tuning, tout en conservant des paramètres et des FLOPs comparables. De plus, il dépasse les méthodes DVO étatiques existantes avec moins de paramètres et de FLOPs.

English

Open-vocabulary detection (OVD) aims to detect objects beyond a predefined set of categories. As a pioneering model incorporating the YOLO series into OVD, YOLO-World is well-suited for scenarios prioritizing speed and efficiency.However, its performance is hindered by its neck feature fusion mechanism, which causes the quadratic complexity and the limited guided receptive fields.To address these limitations, we present Mamba-YOLO-World, a novel YOLO-based OVD model employing the proposed MambaFusion Path Aggregation Network (MambaFusion-PAN) as its neck architecture. Specifically, we introduce an innovative State Space Model-based feature fusion mechanism consisting of a Parallel-Guided Selective Scan algorithm and a Serial-Guided Selective Scan algorithm with linear complexity and globally guided receptive fields. It leverages multi-modal input sequences and mamba hidden states to guide the selective scanning process.Experiments demonstrate that our model outperforms the original YOLO-World on the COCO and LVIS benchmarks in both zero-shot and fine-tuning settings while maintaining comparable parameters and FLOPs. Additionally, it surpasses existing state-of-the-art OVD methods with fewer parameters and FLOPs.

Mamba-YOLO-World : Mariage de YOLO-World avec Mamba pour la Détection à Vocabulaire Ouvert

Mamba-YOLO-World: Marrying YOLO-World with Mamba for Open-Vocabulary Detection

papers.abstract

Support