비디오를 마스크로 변형: 참조 비디오 분할을 위한 플로우 매칭
Deforming Videos to Masks: Flow Matching for Referring Video Segmentation
October 7, 2025
저자: Zanyi Wang, Dengyang Jiang, Liuzhuozheng Li, Sizhe Dang, Chengzu Li, Harry Yang, Guang Dai, Mengmeng Wang, Jingdong Wang
cs.AI
초록
참조 비디오 객체 분할(Referring Video Object Segmentation, RVOS)은 자연어 설명을 기반으로 비디오 내 특정 객체를 분할하는 작업을 요구합니다. RVOS의 핵심 과제는 추상적인 언어적 개념을 특정 픽셀 집합에 고정시키고 비디오의 복잡한 동적 변화 속에서 이를 지속적으로 분할하는 것입니다. 이러한 어려움에 직면하여, 기존 연구는 종종 이 작업을 실용적인 '위치 파악 후 분할' 파이프라인으로 분해해 왔습니다. 그러나 이러한 계단식 설계는 의미를 대략적인 기하학적 프롬프트(예: 점)로 단순화함으로써 정보 병목 현상을 일으키며, 초기 언어 기반과 분할 과정이 분리되면서 시간적 일관성을 유지하기 어려운 문제가 있습니다. 이러한 근본적인 한계를 극복하기 위해, 우리는 RVOS를 조건부 연속 흐름 문제로 재개념화한 FlowRVS라는 새로운 프레임워크를 제안합니다. 이를 통해 사전 학습된 T2V 모델의 강점, 세밀한 픽셀 제어, 텍스트-비디오 의미 정렬, 그리고 시간적 일관성을 활용할 수 있습니다. 기존의 노이즈에서 마스크를 생성하거나 마스크를 직접 예측하는 방식 대신, 우리는 비디오의 전체적 표현에서 목표 마스크로의 언어 기반 직접 변형을 학습하는 방식으로 작업을 재구성합니다. 우리의 단일 단계 생성적 접근법은 모든 주요 RVOS 벤치마크에서 새로운 최첨단 결과를 달성했습니다. 구체적으로, MeViS에서 J&F 51.1(기존 SOTA 대비 +1.6), 제로샷 Ref-DAVIS17에서 73.3(+2.7)을 기록하며, 비디오 이해 작업을 연속 변형 과정으로 모델링하는 것의 상당한 잠재력을 입증했습니다.
English
Referring Video Object Segmentation (RVOS) requires segmenting specific
objects in a video guided by a natural language description. The core challenge
of RVOS is to anchor abstract linguistic concepts onto a specific set of pixels
and continuously segment them through the complex dynamics of a video. Faced
with this difficulty, prior work has often decomposed the task into a pragmatic
`locate-then-segment' pipeline. However, this cascaded design creates an
information bottleneck by simplifying semantics into coarse geometric prompts
(e.g, point), and struggles to maintain temporal consistency as the segmenting
process is often decoupled from the initial language grounding. To overcome
these fundamental limitations, we propose FlowRVS, a novel framework that
reconceptualizes RVOS as a conditional continuous flow problem. This allows us
to harness the inherent strengths of pretrained T2V models, fine-grained pixel
control, text-video semantic alignment, and temporal coherence. Instead of
conventional generating from noise to mask or directly predicting mask, we
reformulate the task by learning a direct, language-guided deformation from a
video's holistic representation to its target mask. Our one-stage, generative
approach achieves new state-of-the-art results across all major RVOS
benchmarks. Specifically, achieving a J&F of 51.1 in
MeViS (+1.6 over prior SOTA) and 73.3 in the zero shot Ref-DAVIS17 (+2.7),
demonstrating the significant potential of modeling video understanding tasks
as continuous deformation processes.