MSRNet: Многоуровневая рекуррентная сеть для обнаружения замаскированных объектов
MSRNet: A Multi-Scale Recursive Network for Camouflaged Object Detection
November 16, 2025
Авторы: Leena Alghamdi, Muhammad Usman, Hafeez Anwar, Abdul Bais, Saeed Anwar
cs.AI
Аннотация
Обнаружение замаскированных объектов — это новая и сложная задача компьютерного зрения, которая требует идентификации и сегментации объектов, незаметно сливающихся с окружающей средой из-за высокой схожести по цвету, текстуре и размеру. Эта задача дополнительно усложняется условиями низкой освещенности, частичной окклюзией, малым размером объектов, сложными фоновыми паттернами и наличием множественных объектов. Хотя для решения данной задачи было предложено множество sophisticated методов, современные подходы по-прежнему испытывают трудности с точным обнаружением замаскированных объектов в сложных сценариях, особенно при работе с мелкими и множественными объектами, что указывает на возможность улучшений. Мы предлагаем Multi-Scale Recursive Network, которая извлекает мультимасштабные признаки с помощью базового модуля Pyramid Vision Transformer и объединяет их с помощью специализированных Attention-Based Scale Integration Units, обеспечивая выборочное слияние признаков. Для более точного обнаружения объектов наш декодер рекурсивно уточняет признаки, используя Multi-Granularity Fusion Units. Разработана новая стратегия рекурсивно-обратной связи при декодировании для улучшения понимания глобального контекста, что помогает модели преодолевать трудности данной задачи. Благодаря совместному использованию мультимасштабного обучения и рекурсивной оптимизации признаков предложенный метод демонстрирует повышение производительности, успешно обнаруживая мелкие и множественные замаскированные объекты. Наша модель достигает state-of-the-art результатов на двух бенчмарках для обнаружения замаскированных объектов и занимает второе место на двух других. Наши коды, веса модели и результаты доступны по адресу https://github.com/linaagh98/MSRNet.
English
Camouflaged object detection is an emerging and challenging computer vision task that requires identifying and segmenting objects that blend seamlessly into their environments due to high similarity in color, texture, and size. This task is further complicated by low-light conditions, partial occlusion, small object size, intricate background patterns, and multiple objects. While many sophisticated methods have been proposed for this task, current methods still struggle to precisely detect camouflaged objects in complex scenarios, especially with small and multiple objects, indicating room for improvement. We propose a Multi-Scale Recursive Network that extracts multi-scale features via a Pyramid Vision Transformer backbone and combines them via specialized Attention-Based Scale Integration Units, enabling selective feature merging. For more precise object detection, our decoder recursively refines features by incorporating Multi-Granularity Fusion Units. A novel recursive-feedback decoding strategy is developed to enhance global context understanding, helping the model overcome the challenges in this task. By jointly leveraging multi-scale learning and recursive feature optimization, our proposed method achieves performance gains, successfully detecting small and multiple camouflaged objects. Our model achieves state-of-the-art results on two benchmark datasets for camouflaged object detection and ranks second on the remaining two. Our codes, model weights, and results are available at https://github.com/linaagh98/MSRNet{https://github.com/linaagh98/MSRNet}.