MOSEv2: Um Conjunto de Dados Mais Desafiador para Segmentação de Objetos em Vídeos em Cenas Complexas
MOSEv2: A More Challenging Dataset for Video Object Segmentation in Complex Scenes
August 7, 2025
Autores: Henghui Ding, Kaining Ying, Chang Liu, Shuting He, Xudong Jiang, Yu-Gang Jiang, Philip H. S. Torr, Song Bai
cs.AI
Resumo
A segmentação de objetos em vídeo (VOS, do inglês *Video Object Segmentation*) tem como objetivo segmentar objetos específicos ao longo de um vídeo. Embora os métodos mais avançados tenham alcançado desempenhos impressionantes (por exemplo, mais de 90% no índice J&F) em benchmarks existentes, como DAVIS e YouTube-VOS, esses conjuntos de dados contêm principalmente objetos salientes, dominantes e isolados, limitando sua generalização para cenários do mundo real. Para avançar a VOS em direção a ambientes mais realistas, o conjunto de dados coMplex video Object SEgmentation (MOSEv1) foi introduzido para facilitar a pesquisa em VOS em cenas complexas. Com base nos pontos fortes e limitações do MOSEv1, apresentamos o MOSEv2, um conjunto de dados significativamente mais desafiador, projetado para avançar ainda mais os métodos de VOS em condições do mundo real. O MOSEv2 consiste em 5.024 vídeos e mais de 701.976 máscaras de alta qualidade para 10.074 objetos em 200 categorias. Em comparação com seu predecessor, o MOSEv2 introduz uma complexidade de cena consideravelmente maior, incluindo desaparecimento e reaparecimento mais frequentes de objetos, oclusões severas e aglomeração, objetos menores, além de uma variedade de novos desafios, como condições climáticas adversas (por exemplo, chuva, neve, neblina), cenas com pouca luz (por exemplo, noturnas, subaquáticas), sequências com múltiplos cortes, objetos camuflados, alvos não físicos (por exemplo, sombras, reflexos), cenários que exigem conhecimento externo, entre outros. Avaliamos 20 métodos representativos de VOS em 5 configurações diferentes e observamos quedas consistentes de desempenho. Por exemplo, o SAM2 cai de 76,4% no MOSEv1 para apenas 50,9% no MOSEv2. Também avaliamos 9 métodos de rastreamento de objetos em vídeo e encontramos declínios semelhantes, demonstrando que o MOSEv2 apresenta desafios em diversas tarefas. Esses resultados destacam que, apesar da alta precisão em conjuntos de dados existentes, os métodos atuais de VOS ainda enfrentam dificuldades diante das complexidades do mundo real. O MOSEv2 está disponível publicamente em https://MOSE.video.
English
Video object segmentation (VOS) aims to segment specified target objects
throughout a video. Although state-of-the-art methods have achieved impressive
performance (e.g., 90+% J&F) on existing benchmarks such as DAVIS and
YouTube-VOS, these datasets primarily contain salient, dominant, and isolated
objects, limiting their generalization to real-world scenarios. To advance VOS
toward more realistic environments, coMplex video Object SEgmentation (MOSEv1)
was introduced to facilitate VOS research in complex scenes. Building on the
strengths and limitations of MOSEv1, we present MOSEv2, a significantly more
challenging dataset designed to further advance VOS methods under real-world
conditions. MOSEv2 consists of 5,024 videos and over 701,976 high-quality masks
for 10,074 objects across 200 categories. Compared to its predecessor, MOSEv2
introduces significantly greater scene complexity, including more frequent
object disappearance and reappearance, severe occlusions and crowding, smaller
objects, as well as a range of new challenges such as adverse weather (e.g.,
rain, snow, fog), low-light scenes (e.g., nighttime, underwater), multi-shot
sequences, camouflaged objects, non-physical targets (e.g., shadows,
reflections), scenarios requiring external knowledge, etc. We benchmark 20
representative VOS methods under 5 different settings and observe consistent
performance drops. For example, SAM2 drops from 76.4% on MOSEv1 to only 50.9%
on MOSEv2. We further evaluate 9 video object tracking methods and find similar
declines, demonstrating that MOSEv2 presents challenges across tasks. These
results highlight that despite high accuracy on existing datasets, current VOS
methods still struggle under real-world complexities. MOSEv2 is publicly
available at https://MOSE.video.