ChatPaper.aiChatPaper

Mamba-YOLO-World: Sposare YOLO-World con Mamba per la Rilevazione a Vocabolario Aperto

Mamba-YOLO-World: Marrying YOLO-World with Mamba for Open-Vocabulary Detection

September 13, 2024
Autori: Haoxuan Wang, Qingdong He, Jinlong Peng, Hao Yang, Mingmin Chi, Yabiao Wang
cs.AI

Abstract

La rilevazione a vocabolario aperto (OVD) mira a rilevare oggetti al di là di un insieme predefinito di categorie. Come modello pionieristico che incorpora la serie YOLO nell'OVD, YOLO-World è ben adatto per scenari che danno priorità alla velocità e all'efficienza. Tuttavia, le sue prestazioni sono ostacolate dal meccanismo di fusione delle caratteristiche del collo, che causa la complessità quadratica e i campi recettivi guidati limitati. Per affrontare queste limitazioni, presentiamo Mamba-YOLO-World, un nuovo modello OVD basato su YOLO che impiega la proposta Rete di Aggregazione del Percorso di Fusione Mamba (MambaFusion-PAN) come architettura del collo. In particolare, introduciamo un innovativo meccanismo di fusione delle caratteristiche basato sul Modello dello Spazio di Stato che consiste in un algoritmo di Scansione Selettiva Parallela-Guidata e un algoritmo di Scansione Selettiva Seriale-Guidata con complessità lineare e campi recettivi globalmente guidati. Sfrutta sequenze di input multimodali e stati nascosti di mamba per guidare il processo di scansione selettiva. Gli esperimenti dimostrano che il nostro modello supera l'originale YOLO-World sui benchmark COCO e LVIS sia nelle impostazioni di zero-shot che di fine-tuning mantenendo parametri e FLOPs comparabili. Inoltre, supera i metodi OVD esistenti all'avanguardia con meno parametri e FLOPs.
English
Open-vocabulary detection (OVD) aims to detect objects beyond a predefined set of categories. As a pioneering model incorporating the YOLO series into OVD, YOLO-World is well-suited for scenarios prioritizing speed and efficiency.However, its performance is hindered by its neck feature fusion mechanism, which causes the quadratic complexity and the limited guided receptive fields.To address these limitations, we present Mamba-YOLO-World, a novel YOLO-based OVD model employing the proposed MambaFusion Path Aggregation Network (MambaFusion-PAN) as its neck architecture. Specifically, we introduce an innovative State Space Model-based feature fusion mechanism consisting of a Parallel-Guided Selective Scan algorithm and a Serial-Guided Selective Scan algorithm with linear complexity and globally guided receptive fields. It leverages multi-modal input sequences and mamba hidden states to guide the selective scanning process.Experiments demonstrate that our model outperforms the original YOLO-World on the COCO and LVIS benchmarks in both zero-shot and fine-tuning settings while maintaining comparable parameters and FLOPs. Additionally, it surpasses existing state-of-the-art OVD methods with fewer parameters and FLOPs.

Summary

AI-Generated Summary

PDF142November 16, 2024