ChatPaper.aiChatPaper

MOVE: Segmentazione Video di Oggetti con Pochi Esempi Guidata dal Movimento

MOVE: Motion-Guided Few-Shot Video Object Segmentation

July 29, 2025
Autori: Kaining Ying, Hengrui Hu, Henghui Ding
cs.AI

Abstract

Questo lavoro affronta la segmentazione video di oggetti con pochi esempi guidata dal movimento (FSVOS), che mira a segmentare oggetti dinamici nei video basandosi su pochi esempi annotati con gli stessi schemi di movimento. I dataset e i metodi FSVOS esistenti si concentrano tipicamente sulle categorie di oggetti, che sono attributi statici che ignorano le ricche dinamiche temporali nei video, limitando la loro applicazione in scenari che richiedono la comprensione del movimento. Per colmare questa lacuna, introduciamo MOVE, un dataset su larga scala specificamente progettato per la FSVOS guidata dal movimento. Basandoci su MOVE, valutiamo in modo completo 6 metodi all'avanguardia provenienti da 3 diverse task correlate in 2 configurazioni sperimentali. I nostri risultati rivelano che i metodi attuali faticano ad affrontare la FSVOS guidata dal movimento, spingendoci ad analizzare le sfide associate e a proporre un metodo di base, il Decoupled Motion Appearance Network (DMA). Gli esperimenti dimostrano che il nostro approccio raggiunge prestazioni superiori nella comprensione del movimento con pochi esempi, stabilendo una solida base per la ricerca futura in questa direzione.
English
This work addresses motion-guided few-shot video object segmentation (FSVOS), which aims to segment dynamic objects in videos based on a few annotated examples with the same motion patterns. Existing FSVOS datasets and methods typically focus on object categories, which are static attributes that ignore the rich temporal dynamics in videos, limiting their application in scenarios requiring motion understanding. To fill this gap, we introduce MOVE, a large-scale dataset specifically designed for motion-guided FSVOS. Based on MOVE, we comprehensively evaluate 6 state-of-the-art methods from 3 different related tasks across 2 experimental settings. Our results reveal that current methods struggle to address motion-guided FSVOS, prompting us to analyze the associated challenges and propose a baseline method, Decoupled Motion Appearance Network (DMA). Experiments demonstrate that our approach achieves superior performance in few shot motion understanding, establishing a solid foundation for future research in this direction.
PDF62July 30, 2025