ChatPaper.aiChatPaper

MeViS : Un ensemble de données multimodales pour la segmentation vidéo d'expressions de mouvement référencées

MeViS: A Multi-Modal Dataset for Referring Motion Expression Video Segmentation

December 11, 2025
papers.authors: Henghui Ding, Chang Liu, Shuting He, Kaining Ying, Xudong Jiang, Chen Change Loy, Yu-Gang Jiang
cs.AI

papers.abstract

Ce document présente un jeu de données multi-modales à grande échelle pour la segmentation vidéo d'expressions de mouvement référentielles, en se concentrant sur la segmentation et le suivi d'objets cibles dans des vidéos sur la base de descriptions langagières de leurs mouvements. Les jeux de données existants pour la segmentation vidéo référentielle ciblent souvent des objets saillants et utilisent des expressions langagières riches en attributs statiques, permettant potentiellement d'identifier l'objet cible dans une seule image. Ces jeux de données sous-estiment le rôle du mouvement dans les vidéos et les langages. Pour explorer la faisabilité d'utiliser des expressions de mouvement et des indices de raisonnement motionnel pour la compréhension vidéo au niveau pixel, nous introduisons MeViS, un jeu de données contenant 33 072 expressions de mouvement annotées manuellement, en texte et en audio, couvrant 8 171 objets dans 2 006 vidéos de scénarios complexes. Nous évaluons 15 méthodes existantes sur 4 tâches supportées par MeViS, incluant 6 méthodes de segmentation vidéo d'objets référentiels (RVOS), 3 méthodes de segmentation vidéo d'objets guidée par l'audio (AVOS), 2 méthodes de suivi multi-objets référentiel (RMOT) et 4 méthodes de description vidéo pour la nouvelle tâche de génération d'expressions de mouvement référentielles (RMEG). Les résultats mettent en évidence les faiblesses et limitations des méthodes existantes pour aborder la compréhension vidéo guidée par les expressions de mouvement. Nous analysons ensuite les défis et proposons une approche LMPM++ pour les tâches RVOS/AVOS/RMOT, qui établit de nouveaux records. Notre jeu de données fournit une plateforme facilitant le développement d'algorithmes de compréhension vidéo guidés par les expressions de mouvement dans des scènes vidéo complexes. Le jeu de données MeViS proposé et le code source de la méthode sont disponibles publiquement à l'adresse https://henghuiding.com/MeViS/.
English
This paper proposes a large-scale multi-modal dataset for referring motion expression video segmentation, focusing on segmenting and tracking target objects in videos based on language description of objects' motions. Existing referring video segmentation datasets often focus on salient objects and use language expressions rich in static attributes, potentially allowing the target object to be identified in a single frame. Such datasets underemphasize the role of motion in both videos and languages. To explore the feasibility of using motion expressions and motion reasoning clues for pixel-level video understanding, we introduce MeViS, a dataset containing 33,072 human-annotated motion expressions in both text and audio, covering 8,171 objects in 2,006 videos of complex scenarios. We benchmark 15 existing methods across 4 tasks supported by MeViS, including 6 referring video object segmentation (RVOS) methods, 3 audio-guided video object segmentation (AVOS) methods, 2 referring multi-object tracking (RMOT) methods, and 4 video captioning methods for the newly introduced referring motion expression generation (RMEG) task. The results demonstrate weaknesses and limitations of existing methods in addressing motion expression-guided video understanding. We further analyze the challenges and propose an approach LMPM++ for RVOS/AVOS/RMOT that achieves new state-of-the-art results. Our dataset provides a platform that facilitates the development of motion expression-guided video understanding algorithms in complex video scenes. The proposed MeViS dataset and the method's source code are publicly available at https://henghuiding.com/MeViS/
PDF01December 18, 2025