ChatPaper.aiChatPaper

MOVE: Сегментация видеообъектов с несколькими примерами на основе управления движением

MOVE: Motion-Guided Few-Shot Video Object Segmentation

July 29, 2025
Авторы: Kaining Ying, Hengrui Hu, Henghui Ding
cs.AI

Аннотация

Данная работа посвящена задаче сегментации динамических объектов в видео на основе нескольких аннотированных примеров с одинаковыми паттернами движения, известной как motion-guided few-shot video object segmentation (FSVOS). Существующие наборы данных и методы FSVOS обычно сосредоточены на категориях объектов, которые являются статическими атрибутами, игнорируя богатые временные динамики в видео, что ограничивает их применение в сценариях, требующих понимания движения. Чтобы заполнить этот пробел, мы представляем MOVE — крупномасштабный набор данных, специально разработанный для motion-guided FSVOS. На основе MOVE мы всесторонне оцениваем 6 современных методов из 3 различных связанных задач в двух экспериментальных настройках. Наши результаты показывают, что текущие методы испытывают трудности с решением задачи motion-guided FSVOS, что побуждает нас проанализировать связанные с этим вызовы и предложить базовый метод — Decoupled Motion Appearance Network (DMA). Эксперименты демонстрируют, что наш подход достигает превосходной производительности в понимании движения на основе нескольких примеров, закладывая прочную основу для будущих исследований в этом направлении.
English
This work addresses motion-guided few-shot video object segmentation (FSVOS), which aims to segment dynamic objects in videos based on a few annotated examples with the same motion patterns. Existing FSVOS datasets and methods typically focus on object categories, which are static attributes that ignore the rich temporal dynamics in videos, limiting their application in scenarios requiring motion understanding. To fill this gap, we introduce MOVE, a large-scale dataset specifically designed for motion-guided FSVOS. Based on MOVE, we comprehensively evaluate 6 state-of-the-art methods from 3 different related tasks across 2 experimental settings. Our results reveal that current methods struggle to address motion-guided FSVOS, prompting us to analyze the associated challenges and propose a baseline method, Decoupled Motion Appearance Network (DMA). Experiments demonstrate that our approach achieves superior performance in few shot motion understanding, establishing a solid foundation for future research in this direction.
PDF62July 30, 2025