ChatPaper.aiChatPaper

MOVE: Bewegingsgestuurde Few-Shot Video Object Segmentatie

MOVE: Motion-Guided Few-Shot Video Object Segmentation

July 29, 2025
Auteurs: Kaining Ying, Hengrui Hu, Henghui Ding
cs.AI

Samenvatting

Dit werk richt zich op motion-guided few-shot video object segmentation (FSVOS), wat als doel heeft dynamische objecten in video's te segmenteren op basis van een paar geannoteerde voorbeelden met dezelfde bewegingspatronen. Bestaande FSVOS-datasets en -methoden richten zich doorgaans op objectcategorieën, wat statische attributen zijn die de rijke temporele dynamiek in video's negeren, waardoor hun toepassing beperkt wordt in scenario's die bewegingsbegrip vereisen. Om deze leemte op te vullen, introduceren we MOVE, een grootschalige dataset die specifiek is ontworpen voor motion-guided FSVOS. Op basis van MOVE evalueren we uitgebreid 6 state-of-the-art methoden uit 3 verschillende gerelateerde taken in 2 experimentele settings. Onze resultaten laten zien dat huidige methoden moeite hebben met motion-guided FSVOS, wat ons aanzet tot een analyse van de bijbehorende uitdagingen en het voorstellen van een baseline-methode, het Decoupled Motion Appearance Network (DMA). Experimenten tonen aan dat onze aanpak superieure prestaties levert in few-shot bewegingsbegrip, wat een solide basis legt voor toekomstig onderzoek in deze richting.
English
This work addresses motion-guided few-shot video object segmentation (FSVOS), which aims to segment dynamic objects in videos based on a few annotated examples with the same motion patterns. Existing FSVOS datasets and methods typically focus on object categories, which are static attributes that ignore the rich temporal dynamics in videos, limiting their application in scenarios requiring motion understanding. To fill this gap, we introduce MOVE, a large-scale dataset specifically designed for motion-guided FSVOS. Based on MOVE, we comprehensively evaluate 6 state-of-the-art methods from 3 different related tasks across 2 experimental settings. Our results reveal that current methods struggle to address motion-guided FSVOS, prompting us to analyze the associated challenges and propose a baseline method, Decoupled Motion Appearance Network (DMA). Experiments demonstrate that our approach achieves superior performance in few shot motion understanding, establishing a solid foundation for future research in this direction.
PDF62July 30, 2025