Mamba-YOLO-World: Die Verbindung von YOLO-World mit Mamba für die Open-Vocabulary-Erkennung
Mamba-YOLO-World: Marrying YOLO-World with Mamba for Open-Vocabulary Detection
September 13, 2024
Autoren: Haoxuan Wang, Qingdong He, Jinlong Peng, Hao Yang, Mingmin Chi, Yabiao Wang
cs.AI
Zusammenfassung
Die Open-Vocabulary Detection (OVD) zielt darauf ab, Objekte jenseits eines vordefinierten Satzes von Kategorien zu erkennen. Als wegweisendes Modell, das die YOLO-Serie in die OVD integriert, ist YOLO-World gut geeignet für Szenarien, die Geschwindigkeit und Effizienz priorisieren. Allerdings wird seine Leistung durch den Halsmerkmal-Fusionsmechanismus beeinträchtigt, der die quadratische Komplexität und die begrenzten geleiteten rezeptiven Felder verursacht. Um diese Einschränkungen zu beheben, präsentieren wir Mamba-YOLO-World, ein neuartiges auf YOLO basierendes OVD-Modell, das die vorgeschlagene MambaFusion Path Aggregation Network (MambaFusion-PAN) als seinen Halsarchitektur verwendet. Speziell führen wir einen innovativen Merkmalsfusionsmechanismus auf Basis eines State Space Models ein, der aus einem Parallel-Guided Selective Scan-Algorithmus und einem Serial-Guided Selective Scan-Algorithmus mit linearer Komplexität und global geleiteten rezeptiven Feldern besteht. Er nutzt multimodale Eingabesequenzen und Mamba Hidden States, um den selektiven Scan-Prozess zu steuern. Experimente zeigen, dass unser Modell die ursprüngliche YOLO-World auf den COCO- und LVIS-Benchmarks sowohl in Zero-Shot- als auch in Fine-Tuning-Einstellungen übertrifft, während es vergleichbare Parameter und FLOPs beibehält. Darüber hinaus übertrifft es bestehende State-of-the-Art OVD-Methoden mit weniger Parametern und FLOPs.
English
Open-vocabulary detection (OVD) aims to detect objects beyond a predefined
set of categories. As a pioneering model incorporating the YOLO series into
OVD, YOLO-World is well-suited for scenarios prioritizing speed and
efficiency.However, its performance is hindered by its neck feature fusion
mechanism, which causes the quadratic complexity and the limited guided
receptive fields.To address these limitations, we present Mamba-YOLO-World, a
novel YOLO-based OVD model employing the proposed MambaFusion Path Aggregation
Network (MambaFusion-PAN) as its neck architecture. Specifically, we introduce
an innovative State Space Model-based feature fusion mechanism consisting of a
Parallel-Guided Selective Scan algorithm and a Serial-Guided Selective Scan
algorithm with linear complexity and globally guided receptive fields. It
leverages multi-modal input sequences and mamba hidden states to guide the
selective scanning process.Experiments demonstrate that our model outperforms
the original YOLO-World on the COCO and LVIS benchmarks in both zero-shot and
fine-tuning settings while maintaining comparable parameters and FLOPs.
Additionally, it surpasses existing state-of-the-art OVD methods with fewer
parameters and FLOPs.Summary
AI-Generated Summary