ChatPaper.aiChatPaper

MOSEv2 : Un ensemble de données plus exigeant pour la segmentation d'objets vidéo dans des scènes complexes

MOSEv2: A More Challenging Dataset for Video Object Segmentation in Complex Scenes

August 7, 2025
papers.authors: Henghui Ding, Kaining Ying, Chang Liu, Shuting He, Xudong Jiang, Yu-Gang Jiang, Philip H. S. Torr, Song Bai
cs.AI

papers.abstract

La segmentation d'objets vidéo (VOS) vise à segmenter des objets cibles spécifiés tout au long d'une vidéo. Bien que les méthodes de pointe aient obtenu des performances impressionnantes (par exemple, plus de 90 % en J&F) sur des benchmarks existants tels que DAVIS et YouTube-VOS, ces ensembles de données contiennent principalement des objets saillants, dominants et isolés, limitant ainsi leur généralisation à des scénarios réels. Pour faire progresser la VOS vers des environnements plus réalistes, le jeu de données coMplex video Object SEgmentation (MOSEv1) a été introduit pour faciliter la recherche en VOS dans des scènes complexes. En s'appuyant sur les forces et les limites de MOSEv1, nous présentons MOSEv2, un ensemble de données nettement plus difficile, conçu pour faire progresser davantage les méthodes de VOS dans des conditions réelles. MOSEv2 se compose de 5 024 vidéos et de plus de 701 976 masques de haute qualité pour 10 074 objets répartis dans 200 catégories. Par rapport à son prédécesseur, MOSEv2 introduit une complexité de scène bien plus importante, incluant des disparitions et réapparitions d'objets plus fréquentes, des occlusions et des encombrements sévères, des objets plus petits, ainsi qu'une gamme de nouveaux défis tels que des conditions météorologiques adverses (par exemple, pluie, neige, brouillard), des scènes en faible luminosité (par exemple, nuit, sous l'eau), des séquences multi-plans, des objets camouflés, des cibles non physiques (par exemple, ombres, reflets), des scénarios nécessitant des connaissances externes, etc. Nous évaluons 20 méthodes représentatives de VOS sous 5 configurations différentes et observons des baisses de performances constantes. Par exemple, SAM2 passe de 76,4 % sur MOSEv1 à seulement 50,9 % sur MOSEv2. Nous évaluons également 9 méthodes de suivi d'objets vidéo et constatons des déclins similaires, démontrant que MOSEv2 présente des défis transversaux. Ces résultats soulignent que, malgré une précision élevée sur les ensembles de données existants, les méthodes actuelles de VOS peinent encore face aux complexités du monde réel. MOSEv2 est disponible publiquement à l'adresse https://MOSE.video.
English
Video object segmentation (VOS) aims to segment specified target objects throughout a video. Although state-of-the-art methods have achieved impressive performance (e.g., 90+% J&F) on existing benchmarks such as DAVIS and YouTube-VOS, these datasets primarily contain salient, dominant, and isolated objects, limiting their generalization to real-world scenarios. To advance VOS toward more realistic environments, coMplex video Object SEgmentation (MOSEv1) was introduced to facilitate VOS research in complex scenes. Building on the strengths and limitations of MOSEv1, we present MOSEv2, a significantly more challenging dataset designed to further advance VOS methods under real-world conditions. MOSEv2 consists of 5,024 videos and over 701,976 high-quality masks for 10,074 objects across 200 categories. Compared to its predecessor, MOSEv2 introduces significantly greater scene complexity, including more frequent object disappearance and reappearance, severe occlusions and crowding, smaller objects, as well as a range of new challenges such as adverse weather (e.g., rain, snow, fog), low-light scenes (e.g., nighttime, underwater), multi-shot sequences, camouflaged objects, non-physical targets (e.g., shadows, reflections), scenarios requiring external knowledge, etc. We benchmark 20 representative VOS methods under 5 different settings and observe consistent performance drops. For example, SAM2 drops from 76.4% on MOSEv1 to only 50.9% on MOSEv2. We further evaluate 9 video object tracking methods and find similar declines, demonstrating that MOSEv2 presents challenges across tasks. These results highlight that despite high accuracy on existing datasets, current VOS methods still struggle under real-world complexities. MOSEv2 is publicly available at https://MOSE.video.
PDF42August 8, 2025