ChatPaper.aiChatPaper

Временные подсказки имеют значение: переосмысление задачи сегментации объектов в видео с указанием

Temporal Prompting Matters: Rethinking Referring Video Object Segmentation

October 8, 2025
Авторы: Ci-Siang Lin, Min-Hung Chen, I-Jieh Liu, Chien-Yi Wang, Sifei Liu, Yu-Chiang Frank Wang
cs.AI

Аннотация

Сегментация объектов на видео по текстовому запросу (RVOS) ставит целью выделение объекта, указанного в запросе, на последовательности кадров видео. Большинство существующих методов требуют сквозного обучения с использованием плотных аннотаций масок, что может быть вычислительно затратным и менее масштабируемым. В данной работе мы переосмысливаем задачу RVOS и стремимся исследовать ключевые аспекты её решения. Опираясь на существующие базовые модели сегментации, мы разбиваем задачу RVOS на факторы, связанные с текстовым запросом, видео и сегментацией, и предлагаем фреймворк Temporal Prompt Generation and Selection (Tenet) для решения задач, связанных с запросом и видео, оставляя проблему сегментации базовым моделям. Для эффективной адаптации моделей сегментации, обученных на изображениях, к задаче RVOS мы используем готовые детекторы и трекеры объектов для создания временных подсказок, связанных с текстовым запросом. Хотя высококачественные временные подсказки могут быть созданы, их сложно идентифицировать по показателям уверенности. Для решения этой проблемы мы предлагаем метод Prompt Preference Learning для оценки качества созданных временных подсказок. Используя такие подсказки для управления базовыми моделями сегментации, обученными на изображениях, мы можем получать высококачественные маски для указанного объекта, что позволяет эффективно адаптировать модель к задаче RVOS. Эксперименты на эталонных наборах данных RVOS демонстрируют эффективность фреймворка Tenet.
English
Referring Video Object Segmentation (RVOS) aims to segment the object referred to by the query sentence in the video. Most existing methods require end-to-end training with dense mask annotations, which could be computation-consuming and less scalable. In this work, we rethink the RVOS problem and aim to investigate the key to this task. Based on existing foundation segmentation models, we decompose the RVOS task into referring, video, and segmentation factors, and propose a Temporal Prompt Generation and Selection (Tenet) framework to address the referring and video factors while leaving the segmentation problem to foundation models. To efficiently adapt image-based foundation segmentation models to referring video object segmentation, we leverage off-the-shelf object detectors and trackers to produce temporal prompts associated with the referring sentence. While high-quality temporal prompts could be produced, they can not be easily identified from confidence scores. To tackle this issue, we propose Prompt Preference Learning to evaluate the quality of the produced temporal prompts. By taking such prompts to instruct image-based foundation segmentation models, we would be able to produce high-quality masks for the referred object, enabling efficient model adaptation to referring video object segmentation. Experiments on RVOS benchmarks demonstrate the effectiveness of the Tenet framework.
PDF22October 13, 2025