ChatPaper.aiChatPaper

A Importância do Prompt Temporal: Repensando a Segmentação de Objetos em Vídeo com Referência

Temporal Prompting Matters: Rethinking Referring Video Object Segmentation

October 8, 2025
Autores: Ci-Siang Lin, Min-Hung Chen, I-Jieh Liu, Chien-Yi Wang, Sifei Liu, Yu-Chiang Frank Wang
cs.AI

Resumo

A Segmentação de Objetos em Vídeo por Referência (RVOS) tem como objetivo segmentar o objeto referenciado pela frase de consulta em um vídeo. A maioria dos métodos existentes requer treinamento de ponta a ponta com anotações densas de máscaras, o que pode ser computacionalmente custoso e menos escalável. Neste trabalho, repensamos o problema do RVOS e buscamos investigar a chave para essa tarefa. Com base em modelos de segmentação fundamentais existentes, decompomos a tarefa de RVOS em fatores de referência, vídeo e segmentação, e propomos uma estrutura de Geração e Seleção de Prompts Temporais (Tenet) para abordar os fatores de referência e vídeo, deixando o problema de segmentação para os modelos fundamentais. Para adaptar de forma eficiente modelos de segmentação fundamentais baseados em imagens à segmentação de objetos em vídeo por referência, utilizamos detectores e rastreadores de objetos prontos para uso a fim de produzir prompts temporais associados à frase de referência. Embora prompts temporais de alta qualidade possam ser produzidos, eles não podem ser facilmente identificados a partir de pontuações de confiança. Para resolver esse problema, propomos o Aprendizado de Preferência de Prompts para avaliar a qualidade dos prompts temporais produzidos. Ao utilizar esses prompts para instruir modelos de segmentação fundamentais baseados em imagens, conseguimos produzir máscaras de alta qualidade para o objeto referenciado, permitindo uma adaptação eficiente do modelo à segmentação de objetos em vídeo por referência. Experimentos em benchmarks de RVOS demonstram a eficácia da estrutura Tenet.
English
Referring Video Object Segmentation (RVOS) aims to segment the object referred to by the query sentence in the video. Most existing methods require end-to-end training with dense mask annotations, which could be computation-consuming and less scalable. In this work, we rethink the RVOS problem and aim to investigate the key to this task. Based on existing foundation segmentation models, we decompose the RVOS task into referring, video, and segmentation factors, and propose a Temporal Prompt Generation and Selection (Tenet) framework to address the referring and video factors while leaving the segmentation problem to foundation models. To efficiently adapt image-based foundation segmentation models to referring video object segmentation, we leverage off-the-shelf object detectors and trackers to produce temporal prompts associated with the referring sentence. While high-quality temporal prompts could be produced, they can not be easily identified from confidence scores. To tackle this issue, we propose Prompt Preference Learning to evaluate the quality of the produced temporal prompts. By taking such prompts to instruct image-based foundation segmentation models, we would be able to produce high-quality masks for the referred object, enabling efficient model adaptation to referring video object segmentation. Experiments on RVOS benchmarks demonstrate the effectiveness of the Tenet framework.
PDF22October 13, 2025