Videos in Masken umwandeln: Flow Matching für die referenzbasierte Videosegmentierung
Deforming Videos to Masks: Flow Matching for Referring Video Segmentation
October 7, 2025
papers.authors: Zanyi Wang, Dengyang Jiang, Liuzhuozheng Li, Sizhe Dang, Chengzu Li, Harry Yang, Guang Dai, Mengmeng Wang, Jingdong Wang
cs.AI
papers.abstract
Referring Video Object Segmentation (RVOS) erfordert die Segmentierung spezifischer Objekte in einem Video, die durch eine natürliche Sprachbeschreibung geleitet wird. Die zentrale Herausforderung von RVOS besteht darin, abstrakte linguistische Konzepte auf eine spezifische Menge von Pixeln zu verankern und diese kontinuierlich durch die komplexe Dynamik eines Videos zu segmentieren. Angesichts dieser Schwierigkeit haben frühere Arbeiten die Aufgabe oft in eine pragmatische `Lokalisieren-dann-Segmentieren'-Pipeline zerlegt. Diese kaskadierte Gestaltung erzeugt jedoch einen Informationsengpass, indem Semantik in grobe geometrische Hinweise (z.B. Punkte) vereinfacht wird, und hat Schwierigkeiten, die zeitliche Konsistenz aufrechtzuerhalten, da der Segmentierungsprozess oft von der anfänglichen Sprachverankerung entkoppelt ist. Um diese grundlegenden Einschränkungen zu überwinden, schlagen wir FlowRVS vor, ein neuartiges Framework, das RVOS als ein bedingtes kontinuierliches Flussproblem neu konzipiert. Dies ermöglicht es uns, die inhärenten Stärken vortrainierter T2V-Modelle, feinkörnige Pixelkontrolle, Text-Video-Semantikausrichtung und zeitliche Kohärenz zu nutzen. Anstatt konventionell von Rauschen zur Maske zu generieren oder direkt die Maske vorherzusagen, reformulieren wir die Aufgabe, indem wir eine direkte, sprachgesteuerte Deformation von der ganzheitlichen Darstellung eines Videos zu seiner Zielmaske lernen. Unser einstufiger, generativer Ansatz erreicht neue State-of-the-Art-Ergebnisse in allen wichtigen RVOS-Benchmarks. Insbesondere erzielt er einen J&F-Wert von 51,1 in MeViS (+1,6 gegenüber dem vorherigen SOTA) und 73,3 im Zero-Shot Ref-DAVIS17 (+2,7), was das erhebliche Potenzial der Modellierung von Video-Verständnisaufgaben als kontinuierliche Deformationsprozesse demonstriert.
English
Referring Video Object Segmentation (RVOS) requires segmenting specific
objects in a video guided by a natural language description. The core challenge
of RVOS is to anchor abstract linguistic concepts onto a specific set of pixels
and continuously segment them through the complex dynamics of a video. Faced
with this difficulty, prior work has often decomposed the task into a pragmatic
`locate-then-segment' pipeline. However, this cascaded design creates an
information bottleneck by simplifying semantics into coarse geometric prompts
(e.g, point), and struggles to maintain temporal consistency as the segmenting
process is often decoupled from the initial language grounding. To overcome
these fundamental limitations, we propose FlowRVS, a novel framework that
reconceptualizes RVOS as a conditional continuous flow problem. This allows us
to harness the inherent strengths of pretrained T2V models, fine-grained pixel
control, text-video semantic alignment, and temporal coherence. Instead of
conventional generating from noise to mask or directly predicting mask, we
reformulate the task by learning a direct, language-guided deformation from a
video's holistic representation to its target mask. Our one-stage, generative
approach achieves new state-of-the-art results across all major RVOS
benchmarks. Specifically, achieving a J&F of 51.1 in
MeViS (+1.6 over prior SOTA) and 73.3 in the zero shot Ref-DAVIS17 (+2.7),
demonstrating the significant potential of modeling video understanding tasks
as continuous deformation processes.