MOSEv2: Een uitdagender dataset voor video-objectsegmentatie in complexe scènes
MOSEv2: A More Challenging Dataset for Video Object Segmentation in Complex Scenes
August 7, 2025
Auteurs: Henghui Ding, Kaining Ying, Chang Liu, Shuting He, Xudong Jiang, Yu-Gang Jiang, Philip H. S. Torr, Song Bai
cs.AI
Samenvatting
Video object segmentation (VOS) heeft als doel om gespecificeerde doelobjecten in een video te segmenteren. Hoewel state-of-the-art methoden indrukwekkende prestaties hebben behaald (bijv. 90+% J&F) op bestaande benchmarks zoals DAVIS en YouTube-VOS, bevatten deze datasets voornamelijk opvallende, dominante en geïsoleerde objecten, wat hun generalisatie naar realistische scenario's beperkt. Om VOS verder te ontwikkelen naar meer realistische omgevingen, werd coMplex video Object SEgmentation (MOSEv1) geïntroduceerd om VOS-onderzoek in complexe scènes te faciliteren. Gebaseerd op de sterke punten en beperkingen van MOSEv1, presenteren we MOSEv2, een aanzienlijk uitdagender dataset die is ontworpen om VOS-methoden verder te ontwikkelen onder realistische omstandigheden. MOSEv2 bestaat uit 5.024 video's en meer dan 701.976 hoogwaardige maskers voor 10.074 objecten in 200 categorieën. Vergeleken met zijn voorganger introduceert MOSEv2 aanzienlijk grotere scènecomplexiteit, waaronder vaker voorkomend verdwijnen en terugkeren van objecten, ernstige occlusies en drukte, kleinere objecten, evenals een reeks nieuwe uitdagingen zoals slecht weer (bijv. regen, sneeuw, mist), slecht verlichte scènes (bijv. nacht, onderwater), multi-shot sequenties, gecamoufleerde objecten, niet-fysieke doelen (bijv. schaduwen, reflecties), scenario's die externe kennis vereisen, enz. We benchmarken 20 representatieve VOS-methoden onder 5 verschillende instellingen en observeren consistente prestatieverminderingen. Bijvoorbeeld, SAM2 daalt van 76,4% op MOSEv1 naar slechts 50,9% op MOSEv2. We evalueren verder 9 video object tracking-methoden en vinden vergelijkbare dalingen, wat aantoont dat MOSEv2 uitdagingen biedt voor verschillende taken. Deze resultaten benadrukken dat, ondanks hoge nauwkeurigheid op bestaande datasets, huidige VOS-methoden nog steeds moeite hebben met realistische complexiteiten. MOSEv2 is publiekelijk beschikbaar op https://MOSE.video.
English
Video object segmentation (VOS) aims to segment specified target objects
throughout a video. Although state-of-the-art methods have achieved impressive
performance (e.g., 90+% J&F) on existing benchmarks such as DAVIS and
YouTube-VOS, these datasets primarily contain salient, dominant, and isolated
objects, limiting their generalization to real-world scenarios. To advance VOS
toward more realistic environments, coMplex video Object SEgmentation (MOSEv1)
was introduced to facilitate VOS research in complex scenes. Building on the
strengths and limitations of MOSEv1, we present MOSEv2, a significantly more
challenging dataset designed to further advance VOS methods under real-world
conditions. MOSEv2 consists of 5,024 videos and over 701,976 high-quality masks
for 10,074 objects across 200 categories. Compared to its predecessor, MOSEv2
introduces significantly greater scene complexity, including more frequent
object disappearance and reappearance, severe occlusions and crowding, smaller
objects, as well as a range of new challenges such as adverse weather (e.g.,
rain, snow, fog), low-light scenes (e.g., nighttime, underwater), multi-shot
sequences, camouflaged objects, non-physical targets (e.g., shadows,
reflections), scenarios requiring external knowledge, etc. We benchmark 20
representative VOS methods under 5 different settings and observe consistent
performance drops. For example, SAM2 drops from 76.4% on MOSEv1 to only 50.9%
on MOSEv2. We further evaluate 9 video object tracking methods and find similar
declines, demonstrating that MOSEv2 presents challenges across tasks. These
results highlight that despite high accuracy on existing datasets, current VOS
methods still struggle under real-world complexities. MOSEv2 is publicly
available at https://MOSE.video.