MeViS: Un Conjunto de Datos Multimodal para la Segmentación de Videos con Expresiones de Movimiento Referencial
MeViS: A Multi-Modal Dataset for Referring Motion Expression Video Segmentation
December 11, 2025
Autores: Henghui Ding, Chang Liu, Shuting He, Kaining Ying, Xudong Jiang, Chen Change Loy, Yu-Gang Jiang
cs.AI
Resumen
Este artículo propone un conjunto de datos multimodal a gran escala para la segmentación de vídeo mediante expresiones de movimiento referencial, centrándose en segmentar y rastrear objetos objetivo en vídeos basándose en descripciones lingüísticas de sus movimientos. Los conjuntos de datos existentes de segmentación de vídeo referencial suelen centrarse en objetos destacados y utilizan expresiones lingüísticas ricas en atributos estáticos, lo que potencialmente permite identificar el objeto objetivo en un solo fotograma. Dichos conjuntos de datos no enfatizan suficientemente el papel del movimiento tanto en los vídeos como en el lenguaje. Para explorar la viabilidad de utilizar expresiones de movimiento y pistas de razonamiento dinámico para la comprensión de vídeo a nivel de píxel, presentamos MeViS, un conjunto de datos que contiene 33.072 expresiones de movimiento anotadas por humanos en formato de texto y audio, abarcando 8.171 objetos en 2.006 vídeos de escenarios complejos. Evaluamos 15 métodos existentes en 4 tareas soportadas por MeViS, incluyendo 6 métodos de segmentación de objetos en vídeo referencial (RVOS), 3 métodos de segmentación de objetos en vídeo guiada por audio (AVOS), 2 métodos de seguimiento multiobjeto referencial (RMOT) y 4 métodos de descripción de vídeo para la nueva tarea de generación de expresiones de movimiento referencial (RMEG). Los resultados demuestran debilidades y limitaciones de los métodos existentes para abordar la comprensión de vídeo guiada por expresiones de movimiento. Analizamos además los desafíos y proponemos un enfoque LMPM++ para RVOS/AVOS/RMOT que logra nuevos resultados de vanguardia. Nuestro conjunto de datos proporciona una plataforma que facilita el desarrollo de algoritmos de comprensión de vídeo guiada por expresiones de movimiento en escenas de vídeo complejas. El conjunto de datos MeViS propuesto y el código fuente del método están disponibles públicamente en https://henghuiding.com/MeViS/.
English
This paper proposes a large-scale multi-modal dataset for referring motion expression video segmentation, focusing on segmenting and tracking target objects in videos based on language description of objects' motions. Existing referring video segmentation datasets often focus on salient objects and use language expressions rich in static attributes, potentially allowing the target object to be identified in a single frame. Such datasets underemphasize the role of motion in both videos and languages. To explore the feasibility of using motion expressions and motion reasoning clues for pixel-level video understanding, we introduce MeViS, a dataset containing 33,072 human-annotated motion expressions in both text and audio, covering 8,171 objects in 2,006 videos of complex scenarios. We benchmark 15 existing methods across 4 tasks supported by MeViS, including 6 referring video object segmentation (RVOS) methods, 3 audio-guided video object segmentation (AVOS) methods, 2 referring multi-object tracking (RMOT) methods, and 4 video captioning methods for the newly introduced referring motion expression generation (RMEG) task. The results demonstrate weaknesses and limitations of existing methods in addressing motion expression-guided video understanding. We further analyze the challenges and propose an approach LMPM++ for RVOS/AVOS/RMOT that achieves new state-of-the-art results. Our dataset provides a platform that facilitates the development of motion expression-guided video understanding algorithms in complex video scenes. The proposed MeViS dataset and the method's source code are publicly available at https://henghuiding.com/MeViS/