MOSEv2: Ein anspruchsvolleres Datenset für die Videoobjektsegmentierung in komplexen Szenen
MOSEv2: A More Challenging Dataset for Video Object Segmentation in Complex Scenes
August 7, 2025
papers.authors: Henghui Ding, Kaining Ying, Chang Liu, Shuting He, Xudong Jiang, Yu-Gang Jiang, Philip H. S. Torr, Song Bai
cs.AI
papers.abstract
Die Video-Objektssegmentierung (VOS) zielt darauf ab, spezifizierte Zielobjekte in einem Video zu segmentieren. Obwohl state-of-the-art-Methoden beeindruckende Leistungen (z. B. 90+ % J&F) auf bestehenden Benchmarks wie DAVIS und YouTube-VOS erzielt haben, enthalten diese Datensätze hauptsächlich auffällige, dominante und isolierte Objekte, was ihre Generalisierbarkeit auf reale Szenarien einschränkt. Um die VOS in Richtung realistischerer Umgebungen voranzutreiben, wurde coMplex video Object SEgmentation (MOSEv1) eingeführt, um die VOS-Forschung in komplexen Szenen zu fördern. Aufbauend auf den Stärken und Schwächen von MOSEv1 präsentieren wir MOSEv2, einen deutlich anspruchsvolleren Datensatz, der entwickelt wurde, um VOS-Methoden unter realen Bedingungen weiter voranzubringen. MOSEv2 besteht aus 5.024 Videos und über 701.976 hochwertigen Masken für 10.074 Objekte aus 200 Kategorien. Im Vergleich zu seinem Vorgänger führt MOSEv2 eine deutlich größere Szenenkomplexität ein, einschließlich häufigerem Verschwinden und Wiederauftauchen von Objekten, schweren Verdeckungen und Überfüllung, kleineren Objekten sowie einer Reihe neuer Herausforderungen wie widrige Wetterbedingungen (z. B. Regen, Schnee, Nebel), Szenen mit geringer Beleuchtung (z. B. Nacht, Unterwasser), Mehrfachsequenzen, getarnte Objekte, nicht-physische Ziele (z. B. Schatten, Reflexionen), Szenarien, die externes Wissen erfordern, usw. Wir benchmarken 20 repräsentative VOS-Methoden unter 5 verschiedenen Einstellungen und beobachten konsistente Leistungseinbußen. Beispielsweise fällt SAM2 von 76,4 % auf MOSEv1 auf nur 50,9 % auf MOSEv2. Wir evaluieren weiterhin 9 Video-Objekttracking-Methoden und stellen ähnliche Rückgänge fest, was zeigt, dass MOSEv2 Herausforderungen über verschiedene Aufgaben hinweg bietet. Diese Ergebnisse verdeutlichen, dass aktuelle VOS-Methoden trotz hoher Genauigkeit auf bestehenden Datensätzen immer noch Schwierigkeiten mit den Komplexitäten der realen Welt haben. MOSEv2 ist öffentlich verfügbar unter https://MOSE.video.
English
Video object segmentation (VOS) aims to segment specified target objects
throughout a video. Although state-of-the-art methods have achieved impressive
performance (e.g., 90+% J&F) on existing benchmarks such as DAVIS and
YouTube-VOS, these datasets primarily contain salient, dominant, and isolated
objects, limiting their generalization to real-world scenarios. To advance VOS
toward more realistic environments, coMplex video Object SEgmentation (MOSEv1)
was introduced to facilitate VOS research in complex scenes. Building on the
strengths and limitations of MOSEv1, we present MOSEv2, a significantly more
challenging dataset designed to further advance VOS methods under real-world
conditions. MOSEv2 consists of 5,024 videos and over 701,976 high-quality masks
for 10,074 objects across 200 categories. Compared to its predecessor, MOSEv2
introduces significantly greater scene complexity, including more frequent
object disappearance and reappearance, severe occlusions and crowding, smaller
objects, as well as a range of new challenges such as adverse weather (e.g.,
rain, snow, fog), low-light scenes (e.g., nighttime, underwater), multi-shot
sequences, camouflaged objects, non-physical targets (e.g., shadows,
reflections), scenarios requiring external knowledge, etc. We benchmark 20
representative VOS methods under 5 different settings and observe consistent
performance drops. For example, SAM2 drops from 76.4% on MOSEv1 to only 50.9%
on MOSEv2. We further evaluate 9 video object tracking methods and find similar
declines, demonstrating that MOSEv2 presents challenges across tasks. These
results highlight that despite high accuracy on existing datasets, current VOS
methods still struggle under real-world complexities. MOSEv2 is publicly
available at https://MOSE.video.