ChatPaper.aiChatPaper

動画をマスクに変形:参照動画セグメンテーションのためのフローマッチング

Deforming Videos to Masks: Flow Matching for Referring Video Segmentation

October 7, 2025
著者: Zanyi Wang, Dengyang Jiang, Liuzhuozheng Li, Sizhe Dang, Chengzu Li, Harry Yang, Guang Dai, Mengmeng Wang, Jingdong Wang
cs.AI

要旨

Referring Video Object Segmentation (RVOS) は、自然言語の記述に基づいてビデオ内の特定のオブジェクトをセグメント化することを要求する。RVOSの核心的な課題は、抽象的な言語概念を特定のピクセル群にアンカーし、ビデオの複雑なダイナミクスを通じてそれらを継続的にセグメント化することである。この難題に直面し、従来の研究ではタスクを実用的な「位置特定→セグメント化」のパイプラインに分解することが多かった。しかし、このカスケード設計は、セマンティクスを粗い幾何学的プロンプト(例:点)に単純化することで情報ボトルネックを生み出し、セグメント化プロセスが初期の言語接地から切り離されるため、時間的一貫性を維持するのに苦労する。これらの根本的な限界を克服するため、我々はFlowRVSを提案する。これは、RVOSを条件付き連続フロー問題として再概念化する新しいフレームワークである。これにより、事前学習済みのT2Vモデルの強み、細かいピクセル制御、テキストとビデオの意味的整合性、時間的整合性を活用することが可能となる。従来のノイズからマスクを生成する方法や直接マスクを予測する方法ではなく、ビデオの全体的な表現からターゲットマスクへの言語誘導変形を直接学習することでタスクを再定式化する。我々のワンステージの生成的アプローチは、主要なRVOSベンチマーク全てで新たな最先端の結果を達成した。具体的には、MeViSでJ&F 51.1(従来のSOTAから+1.6)、ゼロショットのRef-DAVIS17で73.3(+2.7)を達成し、ビデオ理解タスクを連続変形プロセスとしてモデル化することの大きな可能性を示した。
English
Referring Video Object Segmentation (RVOS) requires segmenting specific objects in a video guided by a natural language description. The core challenge of RVOS is to anchor abstract linguistic concepts onto a specific set of pixels and continuously segment them through the complex dynamics of a video. Faced with this difficulty, prior work has often decomposed the task into a pragmatic `locate-then-segment' pipeline. However, this cascaded design creates an information bottleneck by simplifying semantics into coarse geometric prompts (e.g, point), and struggles to maintain temporal consistency as the segmenting process is often decoupled from the initial language grounding. To overcome these fundamental limitations, we propose FlowRVS, a novel framework that reconceptualizes RVOS as a conditional continuous flow problem. This allows us to harness the inherent strengths of pretrained T2V models, fine-grained pixel control, text-video semantic alignment, and temporal coherence. Instead of conventional generating from noise to mask or directly predicting mask, we reformulate the task by learning a direct, language-guided deformation from a video's holistic representation to its target mask. Our one-stage, generative approach achieves new state-of-the-art results across all major RVOS benchmarks. Specifically, achieving a J&F of 51.1 in MeViS (+1.6 over prior SOTA) and 73.3 in the zero shot Ref-DAVIS17 (+2.7), demonstrating the significant potential of modeling video understanding tasks as continuous deformation processes.
PDF22October 8, 2025