MeViS: Um Conjunto de Dados Multimodal para Segmentação de Vídeo por Expressão de Movimento Referencial

Resumo

Este artigo propõe um conjunto de dados multimodais em larga escala para segmentação de vídeo por expressão de movimento referencial, com foco na segmentação e rastreamento de objetos-alvo em vídeos com base na descrição linguística dos movimentos dos objetos. Os conjuntos de dados existentes para segmentação de vídeo referencial frequentemente concentram-se em objetos salientes e utilizam expressões linguísticas ricas em atributos estáticos, permitindo potencialmente que o objeto-alvo seja identificado num único fotograma. Tais conjuntos de dados subvalorizam o papel do movimento tanto nos vídeos quanto nas linguagens. Para explorar a viabilidade de utilizar expressões de movimento e pistas de raciocínio sobre movimento para a compreensão de vídeo a nível de pixel, introduzimos o MeViS, um conjunto de dados que contém 33.072 expressões de movimento anotadas manualmente, em formato textual e áudio, abrangendo 8.171 objetos em 2.006 vídeos de cenários complexos. Avaliamos 15 métodos existentes em 4 tarefas suportadas pelo MeViS, incluindo 6 métodos de segmentação de objetos em vídeo referencial (RVOS), 3 métodos de segmentação de objetos em vídeo guiada por áudio (AVOS), 2 métodos de rastreamento multi-objeto referencial (RMOT) e 4 métodos de legendagem de vídeo para a nova tarefa de geração de expressão de movimento referencial (RMEG). Os resultados demonstram fraquezas e limitações dos métodos existentes na abordagem da compreensão de vídeo guiada por expressões de movimento. Analisamos ainda os desafios e propomos uma abordagem, LMPM++, para RVOS/AVOS/RMOT que atinge novos resultados state-of-the-art. O nosso conjunto de dados fornece uma plataforma que facilita o desenvolvimento de algoritmos de compreensão de vídeo guiada por expressões de movimento em cenas de vídeo complexas. O conjunto de dados MeViS proposto e o código-fonte do método estão publicamente disponíveis em https://henghuiding.com/MeViS/.

English

This paper proposes a large-scale multi-modal dataset for referring motion expression video segmentation, focusing on segmenting and tracking target objects in videos based on language description of objects' motions. Existing referring video segmentation datasets often focus on salient objects and use language expressions rich in static attributes, potentially allowing the target object to be identified in a single frame. Such datasets underemphasize the role of motion in both videos and languages. To explore the feasibility of using motion expressions and motion reasoning clues for pixel-level video understanding, we introduce MeViS, a dataset containing 33,072 human-annotated motion expressions in both text and audio, covering 8,171 objects in 2,006 videos of complex scenarios. We benchmark 15 existing methods across 4 tasks supported by MeViS, including 6 referring video object segmentation (RVOS) methods, 3 audio-guided video object segmentation (AVOS) methods, 2 referring multi-object tracking (RMOT) methods, and 4 video captioning methods for the newly introduced referring motion expression generation (RMEG) task. The results demonstrate weaknesses and limitations of existing methods in addressing motion expression-guided video understanding. We further analyze the challenges and propose an approach LMPM++ for RVOS/AVOS/RMOT that achieves new state-of-the-art results. Our dataset provides a platform that facilitates the development of motion expression-guided video understanding algorithms in complex video scenes. The proposed MeViS dataset and the method's source code are publicly available at https://henghuiding.com/MeViS/

MeViS: Um Conjunto de Dados Multimodal para Segmentação de Vídeo por Expressão de Movimento Referencial

MeViS: A Multi-Modal Dataset for Referring Motion Expression Video Segmentation

Resumo

Support