ChatPaper.aiChatPaper

MeViS: 지시적 동작 표현 비디오 분할을 위한 다중 모달 데이터셋

MeViS: A Multi-Modal Dataset for Referring Motion Expression Video Segmentation

December 11, 2025
저자: Henghui Ding, Chang Liu, Shuting He, Kaining Ying, Xudong Jiang, Chen Change Loy, Yu-Gang Jiang
cs.AI

초록

본 논문은 객체의 운동에 대한 언어적 설명을 기반으로 비디오 내 대상 객체를 분할 및 추적하는 것을 목표로 하는, 참조 운동 표현 비디오 분할을 위한 대규모 다중 모달 데이터셋을 제안한다. 기존 참조 비디오 분할 데이터셋은 두드러진 객체에 집중하고 단일 프레임에서도 대상 객체 식별이 가능한 정적 속성이 풍부한 언어 표현을 사용하는 경향이 있어, 비디오와 언어 양측에서 운동의 역할을 충분히 강조하지 못한다. 운동 표현과 운동 추론 단서를 활용한 픽셀 수준 비디오 이해의 가능성을 탐구하기 위해, 우리는 복잡한 시나리오의 2,006개 비디오에 포함된 8,171개 객체를 텍스트 및 오디오 형태의 33,072개 인간 주석 운동 표현으로 포괄하는 MeViS 데이터셋을 소개한다. 우리는 MeViS가 지원하는 4개 과제(참조 비디오 객체 분할(RVOS) 방법 6종, 오디오 유도 비디오 객체 분할(AVOS) 방법 3종, 참조 다중 객체 추적(RMOT) 방법 2종, 새로 도입된 참조 운동 표현 생성(RMEG) 과제를 위한 비디오 캡셔닝 방법 4종)에 대해 기존 15개 방법의 성능을 벤치마크하였다. 결과는 운동 표현 유도 비디오 이해를 다루는 기존 방법들의 취약점과 한계를 보여준다. 우리는 이러한 과제를 추가로 분석하고 RVOS/AVOS/RMOT를 위한 LMPM++ 접근법을 제안하며, 이는 새로운 최첨단 성과를 달성했다. 본 데이터셋은 복잡한 비디오 장면에서 운동 표현 유도 비디오 이해 알고리즘 개발을 촉진하는 플랫폼을 제공한다. 제안된 MeViS 데이터셋과 방법의 소스 코드는 https://henghuiding.com/MeViS/에서 공개된다.
English
This paper proposes a large-scale multi-modal dataset for referring motion expression video segmentation, focusing on segmenting and tracking target objects in videos based on language description of objects' motions. Existing referring video segmentation datasets often focus on salient objects and use language expressions rich in static attributes, potentially allowing the target object to be identified in a single frame. Such datasets underemphasize the role of motion in both videos and languages. To explore the feasibility of using motion expressions and motion reasoning clues for pixel-level video understanding, we introduce MeViS, a dataset containing 33,072 human-annotated motion expressions in both text and audio, covering 8,171 objects in 2,006 videos of complex scenarios. We benchmark 15 existing methods across 4 tasks supported by MeViS, including 6 referring video object segmentation (RVOS) methods, 3 audio-guided video object segmentation (AVOS) methods, 2 referring multi-object tracking (RMOT) methods, and 4 video captioning methods for the newly introduced referring motion expression generation (RMEG) task. The results demonstrate weaknesses and limitations of existing methods in addressing motion expression-guided video understanding. We further analyze the challenges and propose an approach LMPM++ for RVOS/AVOS/RMOT that achieves new state-of-the-art results. Our dataset provides a platform that facilitates the development of motion expression-guided video understanding algorithms in complex video scenes. The proposed MeViS dataset and the method's source code are publicly available at https://henghuiding.com/MeViS/
PDF01December 18, 2025