MOVE : Segmentation d’objets vidéo en few-shot guidée par le mouvement

papers.abstract

Ce travail aborde la segmentation d'objets vidéo en peu de coups guidée par le mouvement (FSVOS), qui vise à segmenter des objets dynamiques dans des vidéos à partir de quelques exemples annotés présentant les mêmes motifs de mouvement. Les ensembles de données et méthodes existants en FSVOS se concentrent généralement sur les catégories d'objets, qui sont des attributs statiques ignorant la richesse des dynamiques temporelles dans les vidéos, limitant ainsi leur application dans des scénarios nécessitant une compréhension du mouvement. Pour combler cette lacune, nous introduisons MOVE, un ensemble de données à grande échelle spécifiquement conçu pour la FSVOS guidée par le mouvement. Sur la base de MOVE, nous évaluons de manière exhaustive 6 méthodes de pointe issues de 3 tâches connexes différentes dans 2 configurations expérimentales. Nos résultats révèlent que les méthodes actuelles peinent à répondre aux exigences de la FSVOS guidée par le mouvement, ce qui nous amène à analyser les défis associés et à proposer une méthode de référence, le Réseau d'Apparence de Mouvement Découplé (DMA). Les expériences démontrent que notre approche obtient des performances supérieures dans la compréhension du mouvement en peu de coups, établissant ainsi une base solide pour les recherches futures dans cette direction.

English

This work addresses motion-guided few-shot video object segmentation (FSVOS), which aims to segment dynamic objects in videos based on a few annotated examples with the same motion patterns. Existing FSVOS datasets and methods typically focus on object categories, which are static attributes that ignore the rich temporal dynamics in videos, limiting their application in scenarios requiring motion understanding. To fill this gap, we introduce MOVE, a large-scale dataset specifically designed for motion-guided FSVOS. Based on MOVE, we comprehensively evaluate 6 state-of-the-art methods from 3 different related tasks across 2 experimental settings. Our results reveal that current methods struggle to address motion-guided FSVOS, prompting us to analyze the associated challenges and propose a baseline method, Decoupled Motion Appearance Network (DMA). Experiments demonstrate that our approach achieves superior performance in few shot motion understanding, establishing a solid foundation for future research in this direction.

MOVE : Segmentation d’objets vidéo en few-shot guidée par le mouvement

MOVE: Motion-Guided Few-Shot Video Object Segmentation

papers.abstract

Support