MOSEv2:複雑なシーンにおけるビデオオブジェクトセグメンテーションのためのより挑戦的なデータセット
MOSEv2: A More Challenging Dataset for Video Object Segmentation in Complex Scenes
August 7, 2025
著者: Henghui Ding, Kaining Ying, Chang Liu, Shuting He, Xudong Jiang, Yu-Gang Jiang, Philip H. S. Torr, Song Bai
cs.AI
要旨
ビデオオブジェクトセグメンテーション(VOS)は、ビデオ全体にわたって指定されたターゲットオブジェクトをセグメント化することを目的としています。最先端の手法は、DAVISやYouTube-VOSなどの既存のベンチマークで印象的な性能(例:90%以上のJ&F)を達成していますが、これらのデータセットは主に目立つ、支配的で孤立したオブジェクトを含んでおり、現実世界のシナリオへの一般化が制限されています。VOSをより現実的な環境に向けて進化させるために、複雑なシーンでのVOS研究を促進するためにcoMplex video Object SEgmentation(MOSEv1)が導入されました。MOSEv1の強みと限界を基に、現実世界の条件下でVOS手法をさらに進化させるために設計された、はるかに挑戦的なデータセットであるMOSEv2を提示します。MOSEv2は、5,024のビデオと200のカテゴリーにわたる10,074のオブジェクトに対する701,976以上の高品質なマスクで構成されています。前身と比較して、MOSEv2は、より頻繁なオブジェクトの消失と再出現、深刻なオクルージョンや混雑、より小さなオブジェクト、さらには悪天候(例:雨、雪、霧)、低照度シーン(例:夜間、水中)、マルチショットシーケンス、カモフラージュされたオブジェクト、非物理的ターゲット(例:影、反射)、外部知識を必要とするシナリオなど、新たな課題を導入しています。5つの異なる設定で20の代表的なVOS手法をベンチマークし、一貫した性能低下を観察しました。例えば、SAM2はMOSEv1で76.4%からMOSEv2ではわずか50.9%に低下しました。さらに、9つのビデオオブジェクトトラッキング手法を評価し、同様の低下が見られ、MOSEv2がタスク全体にわたって課題を提示していることを示しています。これらの結果は、既存のデータセットでの高い精度にもかかわらず、現在のVOS手法が現実世界の複雑さに対処するのにまだ苦労していることを強調しています。MOSEv2はhttps://MOSE.videoで公開されています。
English
Video object segmentation (VOS) aims to segment specified target objects
throughout a video. Although state-of-the-art methods have achieved impressive
performance (e.g., 90+% J&F) on existing benchmarks such as DAVIS and
YouTube-VOS, these datasets primarily contain salient, dominant, and isolated
objects, limiting their generalization to real-world scenarios. To advance VOS
toward more realistic environments, coMplex video Object SEgmentation (MOSEv1)
was introduced to facilitate VOS research in complex scenes. Building on the
strengths and limitations of MOSEv1, we present MOSEv2, a significantly more
challenging dataset designed to further advance VOS methods under real-world
conditions. MOSEv2 consists of 5,024 videos and over 701,976 high-quality masks
for 10,074 objects across 200 categories. Compared to its predecessor, MOSEv2
introduces significantly greater scene complexity, including more frequent
object disappearance and reappearance, severe occlusions and crowding, smaller
objects, as well as a range of new challenges such as adverse weather (e.g.,
rain, snow, fog), low-light scenes (e.g., nighttime, underwater), multi-shot
sequences, camouflaged objects, non-physical targets (e.g., shadows,
reflections), scenarios requiring external knowledge, etc. We benchmark 20
representative VOS methods under 5 different settings and observe consistent
performance drops. For example, SAM2 drops from 76.4% on MOSEv1 to only 50.9%
on MOSEv2. We further evaluate 9 video object tracking methods and find similar
declines, demonstrating that MOSEv2 presents challenges across tasks. These
results highlight that despite high accuracy on existing datasets, current VOS
methods still struggle under real-world complexities. MOSEv2 is publicly
available at https://MOSE.video.