ChatPaper.aiChatPaper

Mamba-YOLO-World: Het samenvoegen van YOLO-World met Mamba voor Open-Vocabulary Detectie

Mamba-YOLO-World: Marrying YOLO-World with Mamba for Open-Vocabulary Detection

September 13, 2024
Auteurs: Haoxuan Wang, Qingdong He, Jinlong Peng, Hao Yang, Mingmin Chi, Yabiao Wang
cs.AI

Samenvatting

Open-vocabulary detection (OVD) heeft als doel objecten te detecteren die buiten een vooraf gedefinieerde set categorieën vallen. Als een baanbrekend model dat de YOLO-serie integreert in OVD, is YOLO-World goed geschikt voor scenario's waar snelheid en efficiëntie prioriteit hebben. De prestaties worden echter belemmerd door zijn nekkenmerkfusiemechanisme, dat zorgt voor een kwadratische complexiteit en beperkte geleide receptieve velden. Om deze beperkingen aan te pakken, presenteren we Mamba-YOLO-World, een nieuw YOLO-gebaseerd OVD-model dat gebruikmaakt van het voorgestelde MambaFusion Path Aggregation Network (MambaFusion-PAN) als zijn nekarchitectuur. Specifiek introduceren we een innovatief featurefusiemechanisme op basis van een State Space Model, bestaande uit een Parallel-Guided Selective Scan-algoritme en een Serial-Guided Selective Scan-algoritme met lineaire complexiteit en wereldwijd geleide receptieve velden. Het maakt gebruik van multimodale invoerreeksen en mamba-verborgen toestanden om het selectieve scanproces te begeleiden. Experimenten tonen aan dat ons model beter presteert dan het originele YOLO-World op de COCO- en LVIS-benchmarks in zowel zero-shot als fine-tuning instellingen, terwijl het vergelijkbare parameters en FLOPs behoudt. Bovendien overtreft het bestaande state-of-the-art OVD-methoden met minder parameters en FLOPs.
English
Open-vocabulary detection (OVD) aims to detect objects beyond a predefined set of categories. As a pioneering model incorporating the YOLO series into OVD, YOLO-World is well-suited for scenarios prioritizing speed and efficiency.However, its performance is hindered by its neck feature fusion mechanism, which causes the quadratic complexity and the limited guided receptive fields.To address these limitations, we present Mamba-YOLO-World, a novel YOLO-based OVD model employing the proposed MambaFusion Path Aggregation Network (MambaFusion-PAN) as its neck architecture. Specifically, we introduce an innovative State Space Model-based feature fusion mechanism consisting of a Parallel-Guided Selective Scan algorithm and a Serial-Guided Selective Scan algorithm with linear complexity and globally guided receptive fields. It leverages multi-modal input sequences and mamba hidden states to guide the selective scanning process.Experiments demonstrate that our model outperforms the original YOLO-World on the COCO and LVIS benchmarks in both zero-shot and fine-tuning settings while maintaining comparable parameters and FLOPs. Additionally, it surpasses existing state-of-the-art OVD methods with fewer parameters and FLOPs.

Summary

AI-Generated Summary

PDF142November 16, 2024