Сегментировать любое движение в видео
Segment Any Motion in Videos
March 28, 2025
Авторы: Nan Huang, Wenzhao Zheng, Chenfeng Xu, Kurt Keutzer, Shanghang Zhang, Angjoo Kanazawa, Qianqian Wang
cs.AI
Аннотация
Сегментация движущихся объектов является важной задачей для достижения высокоуровневого понимания визуальных сцен и имеет множество приложений. Люди могут без усилий сегментировать движущиеся объекты в видео. Предыдущие работы в основном полагались на оптический поток для предоставления информации о движении; однако этот подход часто приводит к несовершенным предсказаниям из-за таких проблем, как частичное движение, сложные деформации, размытие в движении и отвлекающие фоновые элементы. Мы предлагаем новый подход для сегментации движущихся объектов, который сочетает долгосрочные траекторные данные о движении с семантическими признаками на основе DINO и использует SAM2 для плотной маскировки на уровне пикселей через итеративную стратегию подсказок. Наша модель использует Пространственно-Временное Траекторное Внимание и Декомпозированное Вложение Движения и Семантики, чтобы приоритизировать движение, интегрируя семантическую поддержку. Обширное тестирование на различных наборах данных демонстрирует передовые результаты, превосходящие в сложных сценариях и точной сегментации множества объектов. Наш код доступен по адресу https://motion-seg.github.io/.
English
Moving object segmentation is a crucial task for achieving a high-level
understanding of visual scenes and has numerous downstream applications. Humans
can effortlessly segment moving objects in videos. Previous work has largely
relied on optical flow to provide motion cues; however, this approach often
results in imperfect predictions due to challenges such as partial motion,
complex deformations, motion blur and background distractions. We propose a
novel approach for moving object segmentation that combines long-range
trajectory motion cues with DINO-based semantic features and leverages SAM2 for
pixel-level mask densification through an iterative prompting strategy. Our
model employs Spatio-Temporal Trajectory Attention and Motion-Semantic
Decoupled Embedding to prioritize motion while integrating semantic support.
Extensive testing on diverse datasets demonstrates state-of-the-art
performance, excelling in challenging scenarios and fine-grained segmentation
of multiple objects. Our code is available at https://motion-seg.github.io/.Summary
AI-Generated Summary