ChatPaper.aiChatPaper

Deformación de Videos a Máscaras: Emparejamiento de Flujo para la Segmentación de Videos Referenciales

Deforming Videos to Masks: Flow Matching for Referring Video Segmentation

October 7, 2025
Autores: Zanyi Wang, Dengyang Jiang, Liuzhuozheng Li, Sizhe Dang, Chengzu Li, Harry Yang, Guang Dai, Mengmeng Wang, Jingdong Wang
cs.AI

Resumen

La Segmentación de Objetos en Video Referenciada (RVOS, por sus siglas en inglés) requiere segmentar objetos específicos en un video guiados por una descripción en lenguaje natural. El desafío central de RVOS es anclar conceptos lingüísticos abstractos en un conjunto específico de píxeles y segmentarlos continuamente a través de las dinámicas complejas de un video. Ante esta dificultad, trabajos previos han descompuesto la tarea en una práctica canalización de `localizar y luego segmentar`. Sin embargo, este diseño en cascada crea un cuello de botella de información al simplificar la semántica en indicaciones geométricas gruesas (por ejemplo, un punto), y lucha por mantener la consistencia temporal, ya que el proceso de segmentación a menudo se desacopla de la anclaje inicial del lenguaje. Para superar estas limitaciones fundamentales, proponemos FlowRVS, un marco novedoso que reconceptualiza RVOS como un problema de flujo continuo condicional. Esto nos permite aprovechar las fortalezas inherentes de los modelos T2V preentrenados, el control fino de píxeles, la alineación semántica texto-video y la coherencia temporal. En lugar de generar convencionalmente desde el ruido hasta la máscara o predecir directamente la máscara, reformulamos la tarea aprendiendo una deformación directa guiada por el lenguaje desde la representación holística de un video hasta su máscara objetivo. Nuestro enfoque generativo de una sola etapa logra nuevos resultados de vanguardia en todos los principales puntos de referencia de RVOS. Específicamente, alcanzando un J&F de 51.1 en MeViS (+1.6 sobre el SOTA previo) y 73.3 en el Ref-DAVIS17 de disparo cero (+2.7), demostrando el potencial significativo de modelar tareas de comprensión de video como procesos de deformación continua.
English
Referring Video Object Segmentation (RVOS) requires segmenting specific objects in a video guided by a natural language description. The core challenge of RVOS is to anchor abstract linguistic concepts onto a specific set of pixels and continuously segment them through the complex dynamics of a video. Faced with this difficulty, prior work has often decomposed the task into a pragmatic `locate-then-segment' pipeline. However, this cascaded design creates an information bottleneck by simplifying semantics into coarse geometric prompts (e.g, point), and struggles to maintain temporal consistency as the segmenting process is often decoupled from the initial language grounding. To overcome these fundamental limitations, we propose FlowRVS, a novel framework that reconceptualizes RVOS as a conditional continuous flow problem. This allows us to harness the inherent strengths of pretrained T2V models, fine-grained pixel control, text-video semantic alignment, and temporal coherence. Instead of conventional generating from noise to mask or directly predicting mask, we reformulate the task by learning a direct, language-guided deformation from a video's holistic representation to its target mask. Our one-stage, generative approach achieves new state-of-the-art results across all major RVOS benchmarks. Specifically, achieving a J&F of 51.1 in MeViS (+1.6 over prior SOTA) and 73.3 in the zero shot Ref-DAVIS17 (+2.7), demonstrating the significant potential of modeling video understanding tasks as continuous deformation processes.
PDF22October 8, 2025