ChatPaper.aiChatPaper

L'importance de l'incitation temporelle : Repenser la segmentation d'objets vidéo référencés

Temporal Prompting Matters: Rethinking Referring Video Object Segmentation

October 8, 2025
papers.authors: Ci-Siang Lin, Min-Hung Chen, I-Jieh Liu, Chien-Yi Wang, Sifei Liu, Yu-Chiang Frank Wang
cs.AI

papers.abstract

La segmentation d'objets vidéo par référence (RVOS) vise à segmenter l'objet désigné par une phrase de requête dans une vidéo. La plupart des méthodes existantes nécessitent un entraînement de bout en bout avec des annotations de masques denses, ce qui peut être coûteux en calcul et moins évolutif. Dans ce travail, nous revisitons le problème de la RVOS et cherchons à identifier les éléments clés de cette tâche. En nous appuyant sur des modèles de segmentation de base existants, nous décomposons la tâche de RVOS en facteurs de référence, vidéo et segmentation, et proposons un cadre de génération et de sélection de prompts temporels (Tenet) pour aborder les facteurs de référence et vidéo, tout en laissant le problème de segmentation aux modèles de base. Pour adapter efficacement les modèles de segmentation d'images de base à la segmentation d'objets vidéo par référence, nous exploitons des détecteurs et des traqueurs d'objets prêts à l'emploi pour produire des prompts temporels associés à la phrase de référence. Bien que des prompts temporels de haute qualité puissent être générés, ils ne peuvent pas être facilement identifiés à partir des scores de confiance. Pour résoudre ce problème, nous proposons un apprentissage de préférence des prompts pour évaluer la qualité des prompts temporels produits. En utilisant ces prompts pour guider les modèles de segmentation d'images de base, nous pouvons produire des masques de haute qualité pour l'objet référencé, permettant une adaptation efficace du modèle à la segmentation d'objets vidéo par référence. Les expériences sur les benchmarks de RVOS démontrent l'efficacité du cadre Tenet.
English
Referring Video Object Segmentation (RVOS) aims to segment the object referred to by the query sentence in the video. Most existing methods require end-to-end training with dense mask annotations, which could be computation-consuming and less scalable. In this work, we rethink the RVOS problem and aim to investigate the key to this task. Based on existing foundation segmentation models, we decompose the RVOS task into referring, video, and segmentation factors, and propose a Temporal Prompt Generation and Selection (Tenet) framework to address the referring and video factors while leaving the segmentation problem to foundation models. To efficiently adapt image-based foundation segmentation models to referring video object segmentation, we leverage off-the-shelf object detectors and trackers to produce temporal prompts associated with the referring sentence. While high-quality temporal prompts could be produced, they can not be easily identified from confidence scores. To tackle this issue, we propose Prompt Preference Learning to evaluate the quality of the produced temporal prompts. By taking such prompts to instruct image-based foundation segmentation models, we would be able to produce high-quality masks for the referred object, enabling efficient model adaptation to referring video object segmentation. Experiments on RVOS benchmarks demonstrate the effectiveness of the Tenet framework.
PDF22October 13, 2025