MOSEv2: Un dataset più impegnativo per la segmentazione di oggetti in video in scene complesse
MOSEv2: A More Challenging Dataset for Video Object Segmentation in Complex Scenes
August 7, 2025
Autori: Henghui Ding, Kaining Ying, Chang Liu, Shuting He, Xudong Jiang, Yu-Gang Jiang, Philip H. S. Torr, Song Bai
cs.AI
Abstract
La segmentazione di oggetti video (VOS) mira a segmentare oggetti target specifici lungo un intero video. Sebbene i metodi più avanzati abbiano raggiunto prestazioni impressionanti (ad esempio, oltre il 90% in J&F) su benchmark esistenti come DAVIS e YouTube-VOS, questi dataset contengono principalmente oggetti salienti, dominanti e isolati, limitando la loro generalizzazione a scenari del mondo reale. Per portare la VOS verso ambienti più realistici, è stato introdotto coMplex video Object SEgmentation (MOSEv1) per facilitare la ricerca sulla VOS in scene complesse. Basandoci sui punti di forza e sui limiti di MOSEv1, presentiamo MOSEv2, un dataset significativamente più impegnativo progettato per far progredire ulteriormente i metodi VOS in condizioni reali. MOSEv2 è composto da 5.024 video e oltre 701.976 maschere di alta qualità per 10.074 oggetti appartenenti a 200 categorie. Rispetto al suo predecessore, MOSEv2 introduce una complessità di scena molto maggiore, includendo una più frequente scomparsa e ricomparsa degli oggetti, occlusioni e affollamenti severi, oggetti più piccoli, nonché una serie di nuove sfide come condizioni meteorologiche avverse (ad esempio, pioggia, neve, nebbia), scene in condizioni di scarsa illuminazione (ad esempio, notturno, sott'acqua), sequenze multi-shot, oggetti mimetizzati, target non fisici (ad esempio, ombre, riflessi), scenari che richiedono conoscenze esterne, ecc. Abbiamo valutato 20 metodi rappresentativi di VOS in 5 diverse configurazioni e osservato cali di prestazioni consistenti. Ad esempio, SAM2 scende dal 76,4% su MOSEv1 a solo il 50,9% su MOSEv2. Abbiamo inoltre valutato 9 metodi di tracciamento di oggetti video e riscontrato cali simili, dimostrando che MOSEv2 presenta sfide trasversali ai compiti. Questi risultati evidenziano che, nonostante l'elevata accuratezza sui dataset esistenti, i metodi VOS attuali faticano ancora di fronte alle complessità del mondo reale. MOSEv2 è disponibile pubblicamente all'indirizzo https://MOSE.video.
English
Video object segmentation (VOS) aims to segment specified target objects
throughout a video. Although state-of-the-art methods have achieved impressive
performance (e.g., 90+% J&F) on existing benchmarks such as DAVIS and
YouTube-VOS, these datasets primarily contain salient, dominant, and isolated
objects, limiting their generalization to real-world scenarios. To advance VOS
toward more realistic environments, coMplex video Object SEgmentation (MOSEv1)
was introduced to facilitate VOS research in complex scenes. Building on the
strengths and limitations of MOSEv1, we present MOSEv2, a significantly more
challenging dataset designed to further advance VOS methods under real-world
conditions. MOSEv2 consists of 5,024 videos and over 701,976 high-quality masks
for 10,074 objects across 200 categories. Compared to its predecessor, MOSEv2
introduces significantly greater scene complexity, including more frequent
object disappearance and reappearance, severe occlusions and crowding, smaller
objects, as well as a range of new challenges such as adverse weather (e.g.,
rain, snow, fog), low-light scenes (e.g., nighttime, underwater), multi-shot
sequences, camouflaged objects, non-physical targets (e.g., shadows,
reflections), scenarios requiring external knowledge, etc. We benchmark 20
representative VOS methods under 5 different settings and observe consistent
performance drops. For example, SAM2 drops from 76.4% on MOSEv1 to only 50.9%
on MOSEv2. We further evaluate 9 video object tracking methods and find similar
declines, demonstrating that MOSEv2 presents challenges across tasks. These
results highlight that despite high accuracy on existing datasets, current VOS
methods still struggle under real-world complexities. MOSEv2 is publicly
available at https://MOSE.video.