時間的プロンプトの重要性:参照動画オブジェクトセグメンテーションの再考
Temporal Prompting Matters: Rethinking Referring Video Object Segmentation
October 8, 2025
著者: Ci-Siang Lin, Min-Hung Chen, I-Jieh Liu, Chien-Yi Wang, Sifei Liu, Yu-Chiang Frank Wang
cs.AI
要旨
参照動画オブジェクトセグメンテーション(RVOS)は、クエリ文によって参照されるオブジェクトを動画内でセグメント化することを目的としている。既存の手法の多くは、密なマスクアノテーションを用いたエンドツーエンドの学習を必要とし、計算コストが高く、スケーラビリティに欠ける場合がある。本研究では、RVOSの問題を再考し、このタスクの鍵を探ることを目指す。既存の基盤セグメンテーションモデルに基づき、RVOSタスクを参照、動画、セグメンテーションの要素に分解し、参照と動画の要素に対処するためにTemporal Prompt Generation and Selection(Tenet)フレームワークを提案し、セグメンテーション問題は基盤モデルに委ねる。画像ベースの基盤セグメンテーションモデルを参照動画オブジェクトセグメンテーションに効率的に適応させるため、既存のオブジェクト検出器とトラッカーを活用して、参照文に関連する時間的プロンプトを生成する。高品質な時間的プロンプトが生成可能である一方で、それらは信頼度スコアから容易に識別できない。この問題に対処するため、生成された時間的プロンプトの品質を評価するPrompt Preference Learningを提案する。このようなプロンプトを用いて画像ベースの基盤セグメンテーションモデルを指示することで、参照されたオブジェクトの高品質なマスクを生成し、参照動画オブジェクトセグメンテーションへの効率的なモデル適応を可能にする。RVOSベンチマークでの実験により、Tenetフレームワークの有効性が示された。
English
Referring Video Object Segmentation (RVOS) aims to segment the object
referred to by the query sentence in the video. Most existing methods require
end-to-end training with dense mask annotations, which could be
computation-consuming and less scalable. In this work, we rethink the RVOS
problem and aim to investigate the key to this task. Based on existing
foundation segmentation models, we decompose the RVOS task into referring,
video, and segmentation factors, and propose a Temporal Prompt Generation and
Selection (Tenet) framework to address the referring and video factors while
leaving the segmentation problem to foundation models. To efficiently adapt
image-based foundation segmentation models to referring video object
segmentation, we leverage off-the-shelf object detectors and trackers to
produce temporal prompts associated with the referring sentence. While
high-quality temporal prompts could be produced, they can not be easily
identified from confidence scores. To tackle this issue, we propose Prompt
Preference Learning to evaluate the quality of the produced temporal prompts.
By taking such prompts to instruct image-based foundation segmentation models,
we would be able to produce high-quality masks for the referred object,
enabling efficient model adaptation to referring video object segmentation.
Experiments on RVOS benchmarks demonstrate the effectiveness of the Tenet
framework.