Deformazione di Video in Maschere: Flow Matching per la Segmentazione di Video con Riferimento
Deforming Videos to Masks: Flow Matching for Referring Video Segmentation
October 7, 2025
Autori: Zanyi Wang, Dengyang Jiang, Liuzhuozheng Li, Sizhe Dang, Chengzu Li, Harry Yang, Guang Dai, Mengmeng Wang, Jingdong Wang
cs.AI
Abstract
La Segmentazione di Oggetti Video con Riferimento (RVOS) richiede la segmentazione di oggetti specifici in un video guidata da una descrizione in linguaggio naturale. La sfida principale della RVOS è ancorare concetti linguistici astratti a un insieme specifico di pixel e segmentarli continuamente attraverso le complesse dinamiche di un video. Di fronte a questa difficoltà, i lavori precedenti hanno spesso scomposto il compito in una pipeline pragmatica di "localizza-poi-segmenta". Tuttavia, questo design a cascata crea un collo di bottiglia informativo semplificando la semantica in prompt geometrici approssimativi (ad esempio, un punto) e fatica a mantenere la coerenza temporale, poiché il processo di segmentazione è spesso disaccoppiato dal grounding linguistico iniziale. Per superare queste limitazioni fondamentali, proponiamo FlowRVS, un nuovo framework che riconcettualizza la RVOS come un problema di flusso continuo condizionato. Questo ci permette di sfruttare i punti di forza intrinseci dei modelli T2V preaddestrati, il controllo fine a livello di pixel, l'allineamento semantico testo-video e la coerenza temporale. Invece di generare convenzionalmente dal rumore alla maschera o di prevedere direttamente la maschera, riformuliamo il compito apprendendo una deformazione diretta e guidata dal linguaggio dalla rappresentazione olistica di un video alla sua maschera target. Il nostro approccio generativo a una fase raggiunge nuovi risultati all'avanguardia in tutti i principali benchmark RVOS. In particolare, ottenendo un J&F di 51.1 in MeViS (+1.6 rispetto al precedente SOTA) e 73.3 nel zero shot Ref-DAVIS17 (+2.7), dimostrando il significativo potenziale di modellare i compiti di comprensione video come processi di deformazione continua.
English
Referring Video Object Segmentation (RVOS) requires segmenting specific
objects in a video guided by a natural language description. The core challenge
of RVOS is to anchor abstract linguistic concepts onto a specific set of pixels
and continuously segment them through the complex dynamics of a video. Faced
with this difficulty, prior work has often decomposed the task into a pragmatic
`locate-then-segment' pipeline. However, this cascaded design creates an
information bottleneck by simplifying semantics into coarse geometric prompts
(e.g, point), and struggles to maintain temporal consistency as the segmenting
process is often decoupled from the initial language grounding. To overcome
these fundamental limitations, we propose FlowRVS, a novel framework that
reconceptualizes RVOS as a conditional continuous flow problem. This allows us
to harness the inherent strengths of pretrained T2V models, fine-grained pixel
control, text-video semantic alignment, and temporal coherence. Instead of
conventional generating from noise to mask or directly predicting mask, we
reformulate the task by learning a direct, language-guided deformation from a
video's holistic representation to its target mask. Our one-stage, generative
approach achieves new state-of-the-art results across all major RVOS
benchmarks. Specifically, achieving a J&F of 51.1 in
MeViS (+1.6 over prior SOTA) and 73.3 in the zero shot Ref-DAVIS17 (+2.7),
demonstrating the significant potential of modeling video understanding tasks
as continuous deformation processes.