ChatPaper.aiChatPaper

MOVE: Segmentación de Objetos en Video con Pocos Ejemplos Guiada por Movimiento

MOVE: Motion-Guided Few-Shot Video Object Segmentation

July 29, 2025
Autores: Kaining Ying, Hengrui Hu, Henghui Ding
cs.AI

Resumen

Este trabajo aborda la segmentación de objetos en videos con pocos ejemplos guiada por movimiento (FSVOS, por sus siglas en inglés), cuyo objetivo es segmentar objetos dinámicos en videos basándose en unos pocos ejemplos anotados con los mismos patrones de movimiento. Los conjuntos de datos y métodos existentes para FSVOS suelen centrarse en categorías de objetos, que son atributos estáticos que ignoran la rica dinámica temporal en los videos, limitando su aplicación en escenarios que requieren comprensión del movimiento. Para llenar este vacío, presentamos MOVE, un conjunto de datos a gran escala diseñado específicamente para FSVOS guiada por movimiento. Basándonos en MOVE, evaluamos exhaustivamente 6 métodos de vanguardia de 3 tareas relacionadas diferentes en 2 configuraciones experimentales. Nuestros resultados revelan que los métodos actuales tienen dificultades para abordar FSVOS guiada por movimiento, lo que nos lleva a analizar los desafíos asociados y proponer un método de referencia, la Red de Apariencia de Movimiento Desacoplado (DMA, por sus siglas en inglés). Los experimentos demuestran que nuestro enfoque logra un rendimiento superior en la comprensión del movimiento con pocos ejemplos, estableciendo una base sólida para futuras investigaciones en esta dirección.
English
This work addresses motion-guided few-shot video object segmentation (FSVOS), which aims to segment dynamic objects in videos based on a few annotated examples with the same motion patterns. Existing FSVOS datasets and methods typically focus on object categories, which are static attributes that ignore the rich temporal dynamics in videos, limiting their application in scenarios requiring motion understanding. To fill this gap, we introduce MOVE, a large-scale dataset specifically designed for motion-guided FSVOS. Based on MOVE, we comprehensively evaluate 6 state-of-the-art methods from 3 different related tasks across 2 experimental settings. Our results reveal that current methods struggle to address motion-guided FSVOS, prompting us to analyze the associated challenges and propose a baseline method, Decoupled Motion Appearance Network (DMA). Experiments demonstrate that our approach achieves superior performance in few shot motion understanding, establishing a solid foundation for future research in this direction.
PDF62July 30, 2025