Mamba-YOLO-World : Mariage de YOLO-World avec Mamba pour la Détection à Vocabulaire Ouvert
Mamba-YOLO-World: Marrying YOLO-World with Mamba for Open-Vocabulary Detection
September 13, 2024
Auteurs: Haoxuan Wang, Qingdong He, Jinlong Peng, Hao Yang, Mingmin Chi, Yabiao Wang
cs.AI
Résumé
La détection à vocabulaire ouvert (DVO) vise à détecter des objets au-delà d'un ensemble prédéfini de catégories. En tant que modèle novateur intégrant la série YOLO dans la DVO, YOLO-World est bien adapté aux scénarios privilégiant la vitesse et l'efficacité. Cependant, ses performances sont entravées par son mécanisme de fusion de caractéristiques au niveau du cou, ce qui entraîne une complexité quadratique et des champs récepteurs guidés limités. Pour remédier à ces limitations, nous présentons Mamba-YOLO-World, un nouveau modèle DVO basé sur YOLO qui utilise le réseau d'agrégation de chemins MambaFusion (MambaFusion-PAN) proposé comme architecture au niveau du cou. Plus précisément, nous introduisons un mécanisme innovant de fusion de caractéristiques basé sur un modèle d'espace d'états comprenant un algorithme de balayage sélectif parallèle guidé et un algorithme de balayage sélectif sériel avec une complexité linéaire et des champs récepteurs guidés globalement. Il exploite des séquences d'entrée multimodales et des états cachés de mamba pour guider le processus de balayage sélectif. Les expériences démontrent que notre modèle surpasse le YOLO-World d'origine sur les référentiels COCO et LVIS, à la fois dans des configurations de zéro-shot et de fine-tuning, tout en conservant des paramètres et des FLOPs comparables. De plus, il dépasse les méthodes DVO étatiques existantes avec moins de paramètres et de FLOPs.
English
Open-vocabulary detection (OVD) aims to detect objects beyond a predefined
set of categories. As a pioneering model incorporating the YOLO series into
OVD, YOLO-World is well-suited for scenarios prioritizing speed and
efficiency.However, its performance is hindered by its neck feature fusion
mechanism, which causes the quadratic complexity and the limited guided
receptive fields.To address these limitations, we present Mamba-YOLO-World, a
novel YOLO-based OVD model employing the proposed MambaFusion Path Aggregation
Network (MambaFusion-PAN) as its neck architecture. Specifically, we introduce
an innovative State Space Model-based feature fusion mechanism consisting of a
Parallel-Guided Selective Scan algorithm and a Serial-Guided Selective Scan
algorithm with linear complexity and globally guided receptive fields. It
leverages multi-modal input sequences and mamba hidden states to guide the
selective scanning process.Experiments demonstrate that our model outperforms
the original YOLO-World on the COCO and LVIS benchmarks in both zero-shot and
fine-tuning settings while maintaining comparable parameters and FLOPs.
Additionally, it surpasses existing state-of-the-art OVD methods with fewer
parameters and FLOPs.Summary
AI-Generated Summary