L'Importanza del Prompt Temporale: Ripensare la Segmentazione di Oggetti nei Video con Riferimento
Temporal Prompting Matters: Rethinking Referring Video Object Segmentation
October 8, 2025
Autori: Ci-Siang Lin, Min-Hung Chen, I-Jieh Liu, Chien-Yi Wang, Sifei Liu, Yu-Chiang Frank Wang
cs.AI
Abstract
La Segmentazione di Oggetti Video con Riferimento (RVOS) mira a segmentare l'oggetto indicato dalla frase di query nel video. La maggior parte dei metodi esistenti richiede un addestramento end-to-end con annotazioni di maschere dense, che potrebbe essere computazionalmente oneroso e meno scalabile. In questo lavoro, ripensiamo al problema della RVOS e ci proponiamo di investigare gli aspetti chiave di questo compito. Basandoci su modelli di segmentazione di base esistenti, scomponiamo il compito della RVOS in fattori di riferimento, video e segmentazione, e proponiamo un framework di Generazione e Selezione di Prompt Temporali (Tenet) per affrontare i fattori di riferimento e video, lasciando il problema della segmentazione ai modelli di base. Per adattare in modo efficiente i modelli di segmentazione di base basati su immagini alla segmentazione di oggetti video con riferimento, sfruttiamo rilevatori e tracker di oggetti preesistenti per produrre prompt temporali associati alla frase di riferimento. Sebbene sia possibile produrre prompt temporali di alta qualità, questi non possono essere facilmente identificati dai punteggi di confidenza. Per affrontare questo problema, proponiamo l'Apprendimento della Preferenza dei Prompt per valutare la qualità dei prompt temporali prodotti. Utilizzando tali prompt per istruire i modelli di segmentazione di base basati su immagini, siamo in grado di produrre maschere di alta qualità per l'oggetto indicato, consentendo un adattamento efficiente del modello alla segmentazione di oggetti video con riferimento. Gli esperimenti sui benchmark RVOS dimostrano l'efficacia del framework Tenet.
English
Referring Video Object Segmentation (RVOS) aims to segment the object
referred to by the query sentence in the video. Most existing methods require
end-to-end training with dense mask annotations, which could be
computation-consuming and less scalable. In this work, we rethink the RVOS
problem and aim to investigate the key to this task. Based on existing
foundation segmentation models, we decompose the RVOS task into referring,
video, and segmentation factors, and propose a Temporal Prompt Generation and
Selection (Tenet) framework to address the referring and video factors while
leaving the segmentation problem to foundation models. To efficiently adapt
image-based foundation segmentation models to referring video object
segmentation, we leverage off-the-shelf object detectors and trackers to
produce temporal prompts associated with the referring sentence. While
high-quality temporal prompts could be produced, they can not be easily
identified from confidence scores. To tackle this issue, we propose Prompt
Preference Learning to evaluate the quality of the produced temporal prompts.
By taking such prompts to instruct image-based foundation segmentation models,
we would be able to produce high-quality masks for the referred object,
enabling efficient model adaptation to referring video object segmentation.
Experiments on RVOS benchmarks demonstrate the effectiveness of the Tenet
framework.