ChatPaper.aiChatPaper

Mamba-YOLO-World: Casando YOLO-World com Mamba para Detecção de Vocabulário Aberto

Mamba-YOLO-World: Marrying YOLO-World with Mamba for Open-Vocabulary Detection

September 13, 2024
Autores: Haoxuan Wang, Qingdong He, Jinlong Peng, Hao Yang, Mingmin Chi, Yabiao Wang
cs.AI

Resumo

A detecção de vocabulário aberto (OVD) tem como objetivo detectar objetos além de um conjunto predefinido de categorias. Como um modelo pioneiro que incorpora a série YOLO na OVD, o YOLO-World é adequado para cenários que priorizam velocidade e eficiência. No entanto, seu desempenho é prejudicado pelo mecanismo de fusão de características em seu pescoço, que causa complexidade quadrática e campos receptivos guiados limitados. Para lidar com essas limitações, apresentamos o Mamba-YOLO-World, um modelo inovador de OVD baseado no YOLO que emprega a proposta Rede de Agregação de Caminho de Fusão Mamba (MambaFusion-PAN) como sua arquitetura de pescoço. Especificamente, introduzimos um mecanismo de fusão de características baseado em Modelo de Espaço de Estados, composto por um algoritmo de Varredura Seletiva Paralela-Guiada e um algoritmo de Varredura Seletiva Serial-Guiada com complexidade linear e campos receptivos globalmente guiados. Ele aproveita sequências de entrada multimodais e estados ocultos de mamba para orientar o processo de varredura seletiva. Experimentos demonstram que nosso modelo supera o YOLO-World original nos benchmarks COCO e LVIS, tanto em configurações de zero-shot quanto de ajuste fino, mantendo parâmetros e FLOPs comparáveis. Além disso, ele ultrapassa os métodos existentes de OVD de última geração com menos parâmetros e FLOPs.
English
Open-vocabulary detection (OVD) aims to detect objects beyond a predefined set of categories. As a pioneering model incorporating the YOLO series into OVD, YOLO-World is well-suited for scenarios prioritizing speed and efficiency.However, its performance is hindered by its neck feature fusion mechanism, which causes the quadratic complexity and the limited guided receptive fields.To address these limitations, we present Mamba-YOLO-World, a novel YOLO-based OVD model employing the proposed MambaFusion Path Aggregation Network (MambaFusion-PAN) as its neck architecture. Specifically, we introduce an innovative State Space Model-based feature fusion mechanism consisting of a Parallel-Guided Selective Scan algorithm and a Serial-Guided Selective Scan algorithm with linear complexity and globally guided receptive fields. It leverages multi-modal input sequences and mamba hidden states to guide the selective scanning process.Experiments demonstrate that our model outperforms the original YOLO-World on the COCO and LVIS benchmarks in both zero-shot and fine-tuning settings while maintaining comparable parameters and FLOPs. Additionally, it surpasses existing state-of-the-art OVD methods with fewer parameters and FLOPs.

Summary

AI-Generated Summary

PDF142November 16, 2024