MOVE: Segmentação de Objetos em Vídeo com Poucos Exemplos Guiada por Movimento

Resumo

Este trabalho aborda a segmentação de objetos em vídeo com poucos exemplos guiada por movimento (FSVOS), que visa segmentar objetos dinâmicos em vídeos com base em alguns exemplos anotados com os mesmos padrões de movimento. Os conjuntos de dados e métodos existentes de FSVOS geralmente se concentram em categorias de objetos, que são atributos estáticos que ignoram a rica dinâmica temporal presente nos vídeos, limitando sua aplicação em cenários que exigem compreensão de movimento. Para preencher essa lacuna, introduzimos o MOVE, um conjunto de dados em grande escala especificamente projetado para FSVOS guiada por movimento. Com base no MOVE, avaliamos de forma abrangente 6 métodos state-of-the-art de 3 tarefas relacionadas diferentes em 2 configurações experimentais. Nossos resultados revelam que os métodos atuais têm dificuldade em lidar com FSVOS guiada por movimento, o que nos levou a analisar os desafios associados e propor um método de referência, a Rede de Aparência de Movimento Desacoplada (DMA). Experimentos demonstram que nossa abordagem alcança desempenho superior na compreensão de movimento com poucos exemplos, estabelecendo uma base sólida para pesquisas futuras nessa direção.

English

This work addresses motion-guided few-shot video object segmentation (FSVOS), which aims to segment dynamic objects in videos based on a few annotated examples with the same motion patterns. Existing FSVOS datasets and methods typically focus on object categories, which are static attributes that ignore the rich temporal dynamics in videos, limiting their application in scenarios requiring motion understanding. To fill this gap, we introduce MOVE, a large-scale dataset specifically designed for motion-guided FSVOS. Based on MOVE, we comprehensively evaluate 6 state-of-the-art methods from 3 different related tasks across 2 experimental settings. Our results reveal that current methods struggle to address motion-guided FSVOS, prompting us to analyze the associated challenges and propose a baseline method, Decoupled Motion Appearance Network (DMA). Experiments demonstrate that our approach achieves superior performance in few shot motion understanding, establishing a solid foundation for future research in this direction.

MOVE: Segmentação de Objetos em Vídeo com Poucos Exemplos Guiada por Movimento

MOVE: Motion-Guided Few-Shot Video Object Segmentation

Resumo

Support