ChatPaper.aiChatPaper

MOSEv2: 복잡한 장면에서의 비디오 객체 분할을 위한 더욱 도전적인 데이터셋

MOSEv2: A More Challenging Dataset for Video Object Segmentation in Complex Scenes

August 7, 2025
저자: Henghui Ding, Kaining Ying, Chang Liu, Shuting He, Xudong Jiang, Yu-Gang Jiang, Philip H. S. Torr, Song Bai
cs.AI

초록

비디오 객체 분할(Video Object Segmentation, VOS)은 비디오 전체에서 지정된 대상 객체를 분할하는 것을 목표로 합니다. 최신 방법들은 DAVIS 및 YouTube-VOS와 같은 기존 벤치마크에서 인상적인 성능(예: 90% 이상의 J&F)을 달성했지만, 이러한 데이터셋은 주로 두드러지고 지배적이며 고립된 객체를 포함하고 있어 실제 시나리오로의 일반화가 제한됩니다. VOS를 더 현실적인 환경으로 발전시키기 위해, 복잡한 장면에서의 VOS 연구를 촉진하기 위해 coMplex video Object SEgmentation (MOSEv1)이 도입되었습니다. MOSEv1의 강점과 한계를 바탕으로, 우리는 실제 조건에서 VOS 방법을 더욱 발전시키기 위해 훨씬 더 도전적인 데이터셋인 MOSEv2를 제시합니다. MOSEv2는 5,024개의 비디오와 200개 카테고리에 걸친 10,074개 객체에 대한 701,976개 이상의 고품질 마스크로 구성됩니다. 이전 버전과 비교하여, MOSEv2는 더 빈번한 객체의 사라짐과 재등장, 심각한 가림 및 혼잡, 더 작은 객체, 그리고 악천후(예: 비, 눈, 안개), 저조도 장면(예: 야간, 수중), 멀티샷 시퀀스, 위장된 객체, 비물리적 대상(예: 그림자, 반사), 외부 지식이 필요한 시나리오 등과 같은 새로운 도전 요소를 포함하여 훨씬 더 복잡한 장면을 도입했습니다. 우리는 5가지 다른 설정에서 20개의 대표적인 VOS 방법을 벤치마크하고 일관된 성능 하락을 관찰했습니다. 예를 들어, SAM2는 MOSEv1에서 76.4%에서 MOSEv2에서 단 50.9%로 떨어졌습니다. 또한 9개의 비디오 객체 추적 방법을 평가하고 유사한 하락을 발견하여, MOSEv2가 다양한 작업에서 도전을 제시함을 입증했습니다. 이러한 결과는 기존 데이터셋에서 높은 정확도를 보이는 현재의 VOS 방법들이 여전히 실제 세계의 복잡성에 직면했을 때 어려움을 겪고 있음을 강조합니다. MOSEv2는 https://MOSE.video에서 공개적으로 이용 가능합니다.
English
Video object segmentation (VOS) aims to segment specified target objects throughout a video. Although state-of-the-art methods have achieved impressive performance (e.g., 90+% J&F) on existing benchmarks such as DAVIS and YouTube-VOS, these datasets primarily contain salient, dominant, and isolated objects, limiting their generalization to real-world scenarios. To advance VOS toward more realistic environments, coMplex video Object SEgmentation (MOSEv1) was introduced to facilitate VOS research in complex scenes. Building on the strengths and limitations of MOSEv1, we present MOSEv2, a significantly more challenging dataset designed to further advance VOS methods under real-world conditions. MOSEv2 consists of 5,024 videos and over 701,976 high-quality masks for 10,074 objects across 200 categories. Compared to its predecessor, MOSEv2 introduces significantly greater scene complexity, including more frequent object disappearance and reappearance, severe occlusions and crowding, smaller objects, as well as a range of new challenges such as adverse weather (e.g., rain, snow, fog), low-light scenes (e.g., nighttime, underwater), multi-shot sequences, camouflaged objects, non-physical targets (e.g., shadows, reflections), scenarios requiring external knowledge, etc. We benchmark 20 representative VOS methods under 5 different settings and observe consistent performance drops. For example, SAM2 drops from 76.4% on MOSEv1 to only 50.9% on MOSEv2. We further evaluate 9 video object tracking methods and find similar declines, demonstrating that MOSEv2 presents challenges across tasks. These results highlight that despite high accuracy on existing datasets, current VOS methods still struggle under real-world complexities. MOSEv2 is publicly available at https://MOSE.video.
PDF42August 8, 2025