ChatPaper.aiChatPaper

Mamba-YOLO-World: YOLO-WorldとMambaを結びつけたオープンボキャブラリー検出

Mamba-YOLO-World: Marrying YOLO-World with Mamba for Open-Vocabulary Detection

September 13, 2024
著者: Haoxuan Wang, Qingdong He, Jinlong Peng, Hao Yang, Mingmin Chi, Yabiao Wang
cs.AI

要旨

オープンボキャブラリー検出(OVD)は、事前に定義されたカテゴリーを超えるオブジェクトを検出することを目的としています。YOLOシリーズを取り入れた先駆的なモデルとして、YOLO-Worldは、速度と効率を重視するシナリオに適しています。しかし、その性能は、二次の複雑性と制限された誘導受容野を引き起こすネック特徴融合メカニズムによって妨げられています。これらの制限に対処するために、私たちはMamba-YOLO-Worldを提案します。これは、提案されたMambaFusion Path Aggregation Network(MambaFusion-PAN)をネックアーキテクチャとして採用した、革新的なYOLOベースのOVDモデルです。具体的には、並列誘導選択走査アルゴリズムと直列誘導選択走査アルゴリズムからなる、線形複雑性とグローバルに誘導された受容野を持つ、革新的な状態空間モデルベースの特徴融合メカニズムを導入しています。これは、マルチモーダル入力シーケンスとマンバ隠れ状態を活用して、選択的走査プロセスを誘導します。実験により、当社のモデルが、ゼロショットおよびファインチューニング設定の両方で、COCOおよびLVISのベンチマークで元のYOLO-Worldを上回ることが示されました。さらに、より少ないパラメータとFLOPsで、既存の最先端のOVD手法を凌駕しています。
English
Open-vocabulary detection (OVD) aims to detect objects beyond a predefined set of categories. As a pioneering model incorporating the YOLO series into OVD, YOLO-World is well-suited for scenarios prioritizing speed and efficiency.However, its performance is hindered by its neck feature fusion mechanism, which causes the quadratic complexity and the limited guided receptive fields.To address these limitations, we present Mamba-YOLO-World, a novel YOLO-based OVD model employing the proposed MambaFusion Path Aggregation Network (MambaFusion-PAN) as its neck architecture. Specifically, we introduce an innovative State Space Model-based feature fusion mechanism consisting of a Parallel-Guided Selective Scan algorithm and a Serial-Guided Selective Scan algorithm with linear complexity and globally guided receptive fields. It leverages multi-modal input sequences and mamba hidden states to guide the selective scanning process.Experiments demonstrate that our model outperforms the original YOLO-World on the COCO and LVIS benchmarks in both zero-shot and fine-tuning settings while maintaining comparable parameters and FLOPs. Additionally, it surpasses existing state-of-the-art OVD methods with fewer parameters and FLOPs.

Summary

AI-Generated Summary

PDF142November 16, 2024