MOVE: Segmentação de Objetos em Vídeo com Poucos Exemplos Guiada por Movimento
MOVE: Motion-Guided Few-Shot Video Object Segmentation
July 29, 2025
Autores: Kaining Ying, Hengrui Hu, Henghui Ding
cs.AI
Resumo
Este trabalho aborda a segmentação de objetos em vídeo com poucos exemplos guiada por movimento (FSVOS), que visa segmentar objetos dinâmicos em vídeos com base em alguns exemplos anotados com os mesmos padrões de movimento. Os conjuntos de dados e métodos existentes de FSVOS geralmente se concentram em categorias de objetos, que são atributos estáticos que ignoram a rica dinâmica temporal presente nos vídeos, limitando sua aplicação em cenários que exigem compreensão de movimento. Para preencher essa lacuna, introduzimos o MOVE, um conjunto de dados em grande escala especificamente projetado para FSVOS guiada por movimento. Com base no MOVE, avaliamos de forma abrangente 6 métodos state-of-the-art de 3 tarefas relacionadas diferentes em 2 configurações experimentais. Nossos resultados revelam que os métodos atuais têm dificuldade em lidar com FSVOS guiada por movimento, o que nos levou a analisar os desafios associados e propor um método de referência, a Rede de Aparência de Movimento Desacoplada (DMA). Experimentos demonstram que nossa abordagem alcança desempenho superior na compreensão de movimento com poucos exemplos, estabelecendo uma base sólida para pesquisas futuras nessa direção.
English
This work addresses motion-guided few-shot video object segmentation (FSVOS),
which aims to segment dynamic objects in videos based on a few annotated
examples with the same motion patterns. Existing FSVOS datasets and methods
typically focus on object categories, which are static attributes that ignore
the rich temporal dynamics in videos, limiting their application in scenarios
requiring motion understanding. To fill this gap, we introduce MOVE, a
large-scale dataset specifically designed for motion-guided FSVOS. Based on
MOVE, we comprehensively evaluate 6 state-of-the-art methods from 3 different
related tasks across 2 experimental settings. Our results reveal that current
methods struggle to address motion-guided FSVOS, prompting us to analyze the
associated challenges and propose a baseline method, Decoupled Motion
Appearance Network (DMA). Experiments demonstrate that our approach achieves
superior performance in few shot motion understanding, establishing a solid
foundation for future research in this direction.