MOSEv2: Более сложный набор данных для сегментации объектов на видео в сложных сценах

Аннотация

Сегментация объектов на видео (Video Object Segmentation, VOS) направлена на выделение заданных целевых объектов на протяжении всего видеоряда. Хотя современные методы демонстрируют впечатляющие результаты (например, более 90% по метрике J&F) на существующих наборах данных, таких как DAVIS и YouTube-VOS, эти наборы данных в основном содержат заметные, доминирующие и изолированные объекты, что ограничивает их применимость к реальным сценариям. Для продвижения VOS в сторону более реалистичных условий был представлен набор данных coMplex video Object SEgmentation (MOSEv1), призванный способствовать исследованиям в области сегментации объектов в сложных сценах. Опираясь на достоинства и ограничения MOSEv1, мы представляем MOSEv2 — значительно более сложный набор данных, разработанный для дальнейшего развития методов VOS в условиях, приближенных к реальным. MOSEv2 включает 5 024 видео и более 701 976 высококачественных масок для 10 074 объектов, охватывающих 200 категорий. По сравнению с предшественником, MOSEv2 предлагает значительно большую сложность сцен, включая более частые случаи исчезновения и повторного появления объектов, сильные перекрытия и скопления, меньшие размеры объектов, а также новые вызовы, такие как неблагоприятные погодные условия (например, дождь, снег, туман), сцены с низкой освещенностью (например, ночное время, подводные съемки), многокадровые последовательности, замаскированные объекты, нефизические цели (например, тени, отражения), сценарии, требующие внешних знаний, и т.д. Мы провели тестирование 20 репрезентативных методов VOS в 5 различных условиях и наблюдали устойчивое снижение производительности. Например, SAM2 снизился с 76,4% на MOSEv1 до всего лишь 50,9% на MOSEv2. Мы также оценили 9 методов отслеживания объектов на видео и обнаружили аналогичное снижение, что подтверждает, что MOSEv2 представляет сложности для различных задач. Эти результаты подчеркивают, что, несмотря на высокую точность на существующих наборах данных, современные методы VOS по-прежнему испытывают трудности в условиях реальной сложности. MOSEv2 доступен по адресу https://MOSE.video.

English

Video object segmentation (VOS) aims to segment specified target objects throughout a video. Although state-of-the-art methods have achieved impressive performance (e.g., 90+% J&F) on existing benchmarks such as DAVIS and YouTube-VOS, these datasets primarily contain salient, dominant, and isolated objects, limiting their generalization to real-world scenarios. To advance VOS toward more realistic environments, coMplex video Object SEgmentation (MOSEv1) was introduced to facilitate VOS research in complex scenes. Building on the strengths and limitations of MOSEv1, we present MOSEv2, a significantly more challenging dataset designed to further advance VOS methods under real-world conditions. MOSEv2 consists of 5,024 videos and over 701,976 high-quality masks for 10,074 objects across 200 categories. Compared to its predecessor, MOSEv2 introduces significantly greater scene complexity, including more frequent object disappearance and reappearance, severe occlusions and crowding, smaller objects, as well as a range of new challenges such as adverse weather (e.g., rain, snow, fog), low-light scenes (e.g., nighttime, underwater), multi-shot sequences, camouflaged objects, non-physical targets (e.g., shadows, reflections), scenarios requiring external knowledge, etc. We benchmark 20 representative VOS methods under 5 different settings and observe consistent performance drops. For example, SAM2 drops from 76.4% on MOSEv1 to only 50.9% on MOSEv2. We further evaluate 9 video object tracking methods and find similar declines, demonstrating that MOSEv2 presents challenges across tasks. These results highlight that despite high accuracy on existing datasets, current VOS methods still struggle under real-world complexities. MOSEv2 is publicly available at https://MOSE.video.

MOSEv2: Более сложный набор данных для сегментации объектов на видео в сложных сценах

MOSEv2: A More Challenging Dataset for Video Object Segmentation in Complex Scenes

Аннотация

Support