ChatPaper.aiChatPaper

La Importancia del Prompting Temporal: Replanteando la Segmentación de Objetos en Video con Referencia

Temporal Prompting Matters: Rethinking Referring Video Object Segmentation

October 8, 2025
Autores: Ci-Siang Lin, Min-Hung Chen, I-Jieh Liu, Chien-Yi Wang, Sifei Liu, Yu-Chiang Frank Wang
cs.AI

Resumen

La Segmentación de Objetos en Video Referenciada (RVOS, por sus siglas en inglés) tiene como objetivo segmentar el objeto al que se refiere la frase de consulta en el video. La mayoría de los métodos existentes requieren entrenamiento de extremo a extremo con anotaciones de máscaras densas, lo que puede ser computacionalmente costoso y menos escalable. En este trabajo, reconsideramos el problema de RVOS y buscamos investigar la clave para esta tarea. Basándonos en modelos de segmentación fundamentales existentes, descomponemos la tarea de RVOS en factores de referencia, video y segmentación, y proponemos un marco de Generación y Selección de Indicaciones Temporales (Tenet) para abordar los factores de referencia y video, dejando el problema de segmentación a los modelos fundamentales. Para adaptar eficientemente los modelos de segmentación fundamentales basados en imágenes a la segmentación de objetos en video referenciada, aprovechamos detectores y rastreadores de objetos disponibles para producir indicaciones temporales asociadas con la frase de referencia. Aunque se pueden producir indicaciones temporales de alta calidad, no pueden identificarse fácilmente a partir de puntuaciones de confianza. Para abordar este problema, proponemos el Aprendizaje de Preferencias de Indicaciones para evaluar la calidad de las indicaciones temporales producidas. Al tomar tales indicaciones para instruir a los modelos de segmentación fundamentales basados en imágenes, podremos producir máscaras de alta calidad para el objeto referido, permitiendo una adaptación eficiente del modelo a la segmentación de objetos en video referenciada. Los experimentos en puntos de referencia de RVOS demuestran la efectividad del marco Tenet.
English
Referring Video Object Segmentation (RVOS) aims to segment the object referred to by the query sentence in the video. Most existing methods require end-to-end training with dense mask annotations, which could be computation-consuming and less scalable. In this work, we rethink the RVOS problem and aim to investigate the key to this task. Based on existing foundation segmentation models, we decompose the RVOS task into referring, video, and segmentation factors, and propose a Temporal Prompt Generation and Selection (Tenet) framework to address the referring and video factors while leaving the segmentation problem to foundation models. To efficiently adapt image-based foundation segmentation models to referring video object segmentation, we leverage off-the-shelf object detectors and trackers to produce temporal prompts associated with the referring sentence. While high-quality temporal prompts could be produced, they can not be easily identified from confidence scores. To tackle this issue, we propose Prompt Preference Learning to evaluate the quality of the produced temporal prompts. By taking such prompts to instruct image-based foundation segmentation models, we would be able to produce high-quality masks for the referred object, enabling efficient model adaptation to referring video object segmentation. Experiments on RVOS benchmarks demonstrate the effectiveness of the Tenet framework.
PDF22October 13, 2025