MOVE : Segmentation d’objets vidéo en few-shot guidée par le mouvement
MOVE: Motion-Guided Few-Shot Video Object Segmentation
July 29, 2025
papers.authors: Kaining Ying, Hengrui Hu, Henghui Ding
cs.AI
papers.abstract
Ce travail aborde la segmentation d'objets vidéo en peu de coups guidée par le mouvement (FSVOS), qui vise à segmenter des objets dynamiques dans des vidéos à partir de quelques exemples annotés présentant les mêmes motifs de mouvement. Les ensembles de données et méthodes existants en FSVOS se concentrent généralement sur les catégories d'objets, qui sont des attributs statiques ignorant la richesse des dynamiques temporelles dans les vidéos, limitant ainsi leur application dans des scénarios nécessitant une compréhension du mouvement. Pour combler cette lacune, nous introduisons MOVE, un ensemble de données à grande échelle spécifiquement conçu pour la FSVOS guidée par le mouvement. Sur la base de MOVE, nous évaluons de manière exhaustive 6 méthodes de pointe issues de 3 tâches connexes différentes dans 2 configurations expérimentales. Nos résultats révèlent que les méthodes actuelles peinent à répondre aux exigences de la FSVOS guidée par le mouvement, ce qui nous amène à analyser les défis associés et à proposer une méthode de référence, le Réseau d'Apparence de Mouvement Découplé (DMA). Les expériences démontrent que notre approche obtient des performances supérieures dans la compréhension du mouvement en peu de coups, établissant ainsi une base solide pour les recherches futures dans cette direction.
English
This work addresses motion-guided few-shot video object segmentation (FSVOS),
which aims to segment dynamic objects in videos based on a few annotated
examples with the same motion patterns. Existing FSVOS datasets and methods
typically focus on object categories, which are static attributes that ignore
the rich temporal dynamics in videos, limiting their application in scenarios
requiring motion understanding. To fill this gap, we introduce MOVE, a
large-scale dataset specifically designed for motion-guided FSVOS. Based on
MOVE, we comprehensively evaluate 6 state-of-the-art methods from 3 different
related tasks across 2 experimental settings. Our results reveal that current
methods struggle to address motion-guided FSVOS, prompting us to analyze the
associated challenges and propose a baseline method, Decoupled Motion
Appearance Network (DMA). Experiments demonstrate that our approach achieves
superior performance in few shot motion understanding, establishing a solid
foundation for future research in this direction.