ChatPaper.aiChatPaper

MeViS: un dataset multimodale per la segmentazione video di espressioni di movimento referenziali

MeViS: A Multi-Modal Dataset for Referring Motion Expression Video Segmentation

December 11, 2025
Autori: Henghui Ding, Chang Liu, Shuting He, Kaining Ying, Xudong Jiang, Chen Change Loy, Yu-Gang Jiang
cs.AI

Abstract

Questo articolo propone un dataset multimodale su larga scala per la segmentazione video di espressioni di movimento referenziali, concentrandosi sulla segmentazione e sul tracciamento di oggetti target nei video basandosi sulla descrizione linguistica dei movimenti degli oggetti. I dataset esistenti per la segmentazione video referenziale si concentrano spesso su oggetti salienti e utilizzano espressioni linguistiche ricche di attributi statici, potenzialmente permettendo l'identificazione dell'oggetto target in un singolo fotogramma. Tali dataset sottovalutano il ruolo del movimento sia nei video che nel linguaggio. Per esplorare la fattibilità dell'utilizzo di espressioni di movimento e indizi di ragionamento sul movimento per la comprensione video a livello di pixel, introduciamo MeViS, un dataset contenente 33.072 espressioni di movimento annotate manualmente, sia in testo che in audio, che coprono 8.171 oggetti in 2.006 video di scenari complessi. Valutiamo 15 metodi esistenti su 4 task supportati da MeViS, inclusi 6 metodi di segmentazione video di oggetti referenziali (RVOS), 3 metodi di segmentazione video di oggetti guidata da audio (AVOS), 2 metodi di tracciamento multi-oggetto referenziale (RMOT) e 4 metodi di descrizione video per il nuovo task introdotto di generazione di espressioni di movimento referenziali (RMEG). I risultati dimostrano le carenze e le limitazioni dei metodi esistenti nell'affrontare la comprensione video guidata da espressioni di movimento. Analizziamo ulteriormente le sfide e proponiamo un approccio, LMPM++, per RVOS/AVOS/RMOT che raggiunge nuovi risultati state-of-the-art. Il nostro dataset fornisce una piattaforma che facilita lo sviluppo di algoritmi di comprensione video guidata da espressioni di movimento in scene video complesse. Il dataset MeViS proposto e il codice sorgente del metodo sono pubblicamente disponibili all'indirizzo https://henghuiding.com/MeViS/.
English
This paper proposes a large-scale multi-modal dataset for referring motion expression video segmentation, focusing on segmenting and tracking target objects in videos based on language description of objects' motions. Existing referring video segmentation datasets often focus on salient objects and use language expressions rich in static attributes, potentially allowing the target object to be identified in a single frame. Such datasets underemphasize the role of motion in both videos and languages. To explore the feasibility of using motion expressions and motion reasoning clues for pixel-level video understanding, we introduce MeViS, a dataset containing 33,072 human-annotated motion expressions in both text and audio, covering 8,171 objects in 2,006 videos of complex scenarios. We benchmark 15 existing methods across 4 tasks supported by MeViS, including 6 referring video object segmentation (RVOS) methods, 3 audio-guided video object segmentation (AVOS) methods, 2 referring multi-object tracking (RMOT) methods, and 4 video captioning methods for the newly introduced referring motion expression generation (RMEG) task. The results demonstrate weaknesses and limitations of existing methods in addressing motion expression-guided video understanding. We further analyze the challenges and propose an approach LMPM++ for RVOS/AVOS/RMOT that achieves new state-of-the-art results. Our dataset provides a platform that facilitates the development of motion expression-guided video understanding algorithms in complex video scenes. The proposed MeViS dataset and the method's source code are publicly available at https://henghuiding.com/MeViS/
PDF01December 18, 2025