ChatPaper.aiChatPaper

MOSEv2: Un conjunto de datos más desafiante para la segmentación de objetos en vídeo en escenas complejas

MOSEv2: A More Challenging Dataset for Video Object Segmentation in Complex Scenes

August 7, 2025
Autores: Henghui Ding, Kaining Ying, Chang Liu, Shuting He, Xudong Jiang, Yu-Gang Jiang, Philip H. S. Torr, Song Bai
cs.AI

Resumen

La segmentación de objetos en video (VOS, por sus siglas en inglés) tiene como objetivo segmentar objetos específicos a lo largo de un video. Aunque los métodos más avanzados han logrado un rendimiento impresionante (por ejemplo, más del 90% en J&F) en benchmarks existentes como DAVIS y YouTube-VOS, estos conjuntos de datos contienen principalmente objetos destacados, dominantes y aislados, lo que limita su generalización a escenarios del mundo real. Para avanzar en la VOS hacia entornos más realistas, se introdujo coMplex video Object SEgmentation (MOSEv1) para facilitar la investigación en escenas complejas. Basándonos en las fortalezas y limitaciones de MOSEv1, presentamos MOSEv2, un conjunto de datos significativamente más desafiante diseñado para impulsar los métodos de VOS en condiciones del mundo real. MOSEv2 consta de 5,024 videos y más de 701,976 máscaras de alta calidad para 10,074 objetos en 200 categorías. En comparación con su predecesor, MOSEv2 introduce una complejidad de escena mucho mayor, incluyendo desapariciones y reapariciones más frecuentes de objetos, oclusiones severas y aglomeraciones, objetos más pequeños, así como una variedad de nuevos desafíos como condiciones climáticas adversas (por ejemplo, lluvia, nieve, niebla), escenas con poca luz (por ejemplo, nocturnas, submarinas), secuencias de múltiples tomas, objetos camuflados, objetivos no físicos (por ejemplo, sombras, reflejos), escenarios que requieren conocimiento externo, entre otros. Evaluamos 20 métodos representativos de VOS bajo 5 configuraciones diferentes y observamos caídas consistentes en el rendimiento. Por ejemplo, SAM2 cae del 76.4% en MOSEv1 a solo el 50.9% en MOSEv2. Además, evaluamos 9 métodos de seguimiento de objetos en video y encontramos disminuciones similares, lo que demuestra que MOSEv2 presenta desafíos en diversas tareas. Estos resultados resaltan que, a pesar de la alta precisión en los conjuntos de datos existentes, los métodos actuales de VOS aún tienen dificultades frente a las complejidades del mundo real. MOSEv2 está disponible públicamente en https://MOSE.video.
English
Video object segmentation (VOS) aims to segment specified target objects throughout a video. Although state-of-the-art methods have achieved impressive performance (e.g., 90+% J&F) on existing benchmarks such as DAVIS and YouTube-VOS, these datasets primarily contain salient, dominant, and isolated objects, limiting their generalization to real-world scenarios. To advance VOS toward more realistic environments, coMplex video Object SEgmentation (MOSEv1) was introduced to facilitate VOS research in complex scenes. Building on the strengths and limitations of MOSEv1, we present MOSEv2, a significantly more challenging dataset designed to further advance VOS methods under real-world conditions. MOSEv2 consists of 5,024 videos and over 701,976 high-quality masks for 10,074 objects across 200 categories. Compared to its predecessor, MOSEv2 introduces significantly greater scene complexity, including more frequent object disappearance and reappearance, severe occlusions and crowding, smaller objects, as well as a range of new challenges such as adverse weather (e.g., rain, snow, fog), low-light scenes (e.g., nighttime, underwater), multi-shot sequences, camouflaged objects, non-physical targets (e.g., shadows, reflections), scenarios requiring external knowledge, etc. We benchmark 20 representative VOS methods under 5 different settings and observe consistent performance drops. For example, SAM2 drops from 76.4% on MOSEv1 to only 50.9% on MOSEv2. We further evaluate 9 video object tracking methods and find similar declines, demonstrating that MOSEv2 presents challenges across tasks. These results highlight that despite high accuracy on existing datasets, current VOS methods still struggle under real-world complexities. MOSEv2 is publicly available at https://MOSE.video.
PDF42August 8, 2025