시간적 프롬프트의 중요성: 참조 비디오 객체 분할에 대한 재고찰
Temporal Prompting Matters: Rethinking Referring Video Object Segmentation
October 8, 2025
저자: Ci-Siang Lin, Min-Hung Chen, I-Jieh Liu, Chien-Yi Wang, Sifei Liu, Yu-Chiang Frank Wang
cs.AI
초록
비디오 객체 참조 분할(Referring Video Object Segmentation, RVOS)은 쿼리 문장이 참조하는 객체를 비디오에서 분할하는 것을 목표로 합니다. 대부분의 기존 방법은 조밀한 마스크 주석과 함께 종단 간 학습을 요구하며, 이는 계산 비용이 많이 들고 확장성이 떨어질 수 있습니다. 본 연구에서는 RVOS 문제를 재고하고 이 작업의 핵심을 탐구하고자 합니다. 기존의 기반 분할 모델을 바탕으로, RVOS 작업을 참조, 비디오, 분할 요소로 분해하고, 참조 및 비디오 요소를 해결하기 위해 Temporal Prompt Generation and Selection(Tenet) 프레임워크를 제안하며, 분할 문제는 기반 모델에 맡깁니다. 이미지 기반 기반 분할 모델을 참조 비디오 객체 분할에 효율적으로 적용하기 위해, 기존의 객체 감지기와 추적기를 활용하여 참조 문장과 연관된 시간적 프롬프트를 생성합니다. 고품질의 시간적 프롬프트가 생성될 수 있지만, 신뢰도 점수로부터 이를 쉽게 식별할 수 없습니다. 이 문제를 해결하기 위해, 생성된 시간적 프롬프트의 품질을 평가하기 위한 Prompt Preference Learning을 제안합니다. 이러한 프롬프트를 사용하여 이미지 기반 기반 분할 모델을 지시함으로써, 참조된 객체에 대한 고품질 마스크를 생성할 수 있으며, 이를 통해 참조 비디오 객체 분할에 대한 모델 적응을 효율적으로 가능하게 합니다. RVOS 벤치마크에서의 실험은 Tenet 프레임워크의 효과를 입증합니다.
English
Referring Video Object Segmentation (RVOS) aims to segment the object
referred to by the query sentence in the video. Most existing methods require
end-to-end training with dense mask annotations, which could be
computation-consuming and less scalable. In this work, we rethink the RVOS
problem and aim to investigate the key to this task. Based on existing
foundation segmentation models, we decompose the RVOS task into referring,
video, and segmentation factors, and propose a Temporal Prompt Generation and
Selection (Tenet) framework to address the referring and video factors while
leaving the segmentation problem to foundation models. To efficiently adapt
image-based foundation segmentation models to referring video object
segmentation, we leverage off-the-shelf object detectors and trackers to
produce temporal prompts associated with the referring sentence. While
high-quality temporal prompts could be produced, they can not be easily
identified from confidence scores. To tackle this issue, we propose Prompt
Preference Learning to evaluate the quality of the produced temporal prompts.
By taking such prompts to instruct image-based foundation segmentation models,
we would be able to produce high-quality masks for the referred object,
enabling efficient model adaptation to referring video object segmentation.
Experiments on RVOS benchmarks demonstrate the effectiveness of the Tenet
framework.