ChatPaper.aiChatPaper

Segmentar Cualquier Movimiento en Videos

Segment Any Motion in Videos

March 28, 2025
Autores: Nan Huang, Wenzhao Zheng, Chenfeng Xu, Kurt Keutzer, Shanghang Zhang, Angjoo Kanazawa, Qianqian Wang
cs.AI

Resumen

La segmentación de objetos en movimiento es una tarea crucial para lograr una comprensión de alto nivel de escenas visuales y tiene numerosas aplicaciones posteriores. Los humanos pueden segmentar objetos en movimiento en videos sin esfuerzo. Trabajos anteriores han dependido en gran medida del flujo óptico para proporcionar pistas de movimiento; sin embargo, este enfoque a menudo resulta en predicciones imperfectas debido a desafíos como el movimiento parcial, deformaciones complejas, desenfoque por movimiento y distracciones del fondo. Proponemos un enfoque novedoso para la segmentación de objetos en movimiento que combina pistas de movimiento de trayectorias de largo alcance con características semánticas basadas en DINO y aprovecha SAM2 para la densificación de máscaras a nivel de píxeles mediante una estrategia de indicación iterativa. Nuestro modelo emplea Atención de Trayectoria Espacio-Temporal y Incrustación Desacoplada de Movimiento-Semántica para priorizar el movimiento mientras integra soporte semántico. Pruebas exhaustivas en diversos conjuntos de datos demuestran un rendimiento de vanguardia, destacándose en escenarios desafiantes y en la segmentación detallada de múltiples objetos. Nuestro código está disponible en https://motion-seg.github.io/.
English
Moving object segmentation is a crucial task for achieving a high-level understanding of visual scenes and has numerous downstream applications. Humans can effortlessly segment moving objects in videos. Previous work has largely relied on optical flow to provide motion cues; however, this approach often results in imperfect predictions due to challenges such as partial motion, complex deformations, motion blur and background distractions. We propose a novel approach for moving object segmentation that combines long-range trajectory motion cues with DINO-based semantic features and leverages SAM2 for pixel-level mask densification through an iterative prompting strategy. Our model employs Spatio-Temporal Trajectory Attention and Motion-Semantic Decoupled Embedding to prioritize motion while integrating semantic support. Extensive testing on diverse datasets demonstrates state-of-the-art performance, excelling in challenging scenarios and fine-grained segmentation of multiple objects. Our code is available at https://motion-seg.github.io/.

Summary

AI-Generated Summary

PDF172March 31, 2025