Mamba-YOLO-World: Совмещение YOLO-World с Mamba для обнаружения с открытым словарем
Mamba-YOLO-World: Marrying YOLO-World with Mamba for Open-Vocabulary Detection
September 13, 2024
Авторы: Haoxuan Wang, Qingdong He, Jinlong Peng, Hao Yang, Mingmin Chi, Yabiao Wang
cs.AI
Аннотация
Детекция с открытым словарем (Open-vocabulary detection, OVD) направлена на обнаружение объектов вне заранее определенного набора категорий. Как первоначальная модель, интегрирующая серию YOLO в OVD, YOLO-World хорошо подходит для сценариев, где важны скорость и эффективность. Однако его производительность ограничена механизмом объединения признаков в шее, который вызывает квадратичную сложность и ограниченные управляемые рецептивные поля. Для преодоления этих ограничений мы представляем Mamba-YOLO-World, новую модель OVD на основе YOLO, использующую предложенную сеть агрегации путей MambaFusion (MambaFusion-PAN) в качестве своей архитектуры шеи. Конкретно, мы вводим инновационный механизм объединения признаков на основе модели пространства состояний, состоящий из алгоритма параллельного управляемого выборочного сканирования и алгоритма последовательного управляемого выборочного сканирования с линейной сложностью и глобально управляемыми рецептивными полями. Он использует многомодальные последовательности ввода и скрытые состояния mamba для управления процессом выборочного сканирования. Эксперименты показывают, что наша модель превосходит оригинальный YOLO-World на бенчмарках COCO и LVIS как в настройках нулевого обучения, так и в настройках дообучения, сохраняя при этом сравнимое количество параметров и операций с плавающей запятой (FLOPs). Кроме того, она превосходит существующие передовые методы OVD с меньшим количеством параметров и FLOPs.
English
Open-vocabulary detection (OVD) aims to detect objects beyond a predefined
set of categories. As a pioneering model incorporating the YOLO series into
OVD, YOLO-World is well-suited for scenarios prioritizing speed and
efficiency.However, its performance is hindered by its neck feature fusion
mechanism, which causes the quadratic complexity and the limited guided
receptive fields.To address these limitations, we present Mamba-YOLO-World, a
novel YOLO-based OVD model employing the proposed MambaFusion Path Aggregation
Network (MambaFusion-PAN) as its neck architecture. Specifically, we introduce
an innovative State Space Model-based feature fusion mechanism consisting of a
Parallel-Guided Selective Scan algorithm and a Serial-Guided Selective Scan
algorithm with linear complexity and globally guided receptive fields. It
leverages multi-modal input sequences and mamba hidden states to guide the
selective scanning process.Experiments demonstrate that our model outperforms
the original YOLO-World on the COCO and LVIS benchmarks in both zero-shot and
fine-tuning settings while maintaining comparable parameters and FLOPs.
Additionally, it surpasses existing state-of-the-art OVD methods with fewer
parameters and FLOPs.Summary
AI-Generated Summary