ChatPaper.aiChatPaper

Temporele Prompting Doet Ertoe: Een Herbezinning op Refererende Video-objectsegmentatie

Temporal Prompting Matters: Rethinking Referring Video Object Segmentation

October 8, 2025
Auteurs: Ci-Siang Lin, Min-Hung Chen, I-Jieh Liu, Chien-Yi Wang, Sifei Liu, Yu-Chiang Frank Wang
cs.AI

Samenvatting

Referring Video Object Segmentation (RVOS) heeft als doel het object te segmenteren waarnaar wordt verwezen in de queryszin in de video. De meeste bestaande methoden vereisen end-to-end training met dichte maskerannotaties, wat rekenintensief en minder schaalbaar kan zijn. In dit werk heroverwegen we het RVOS-probleem en streven we ernaar de sleutel tot deze taak te onderzoeken. Gebaseerd op bestaande foundation-segmentatiemodellen, ontleden we de RVOS-taak in verwijzings-, video- en segmentatiefactoren, en stellen we een Temporal Prompt Generation and Selection (Tenet) framework voor om de verwijzings- en videofactoren aan te pakken, terwijl we het segmentatieprobleem overlaten aan foundation-modellen. Om op afbeeldingen gebaseerde foundation-segmentatiemodellen efficiënt aan te passen aan verwijzende video-objectsegmentatie, maken we gebruik van kant-en-klare objectdetectoren en trackers om temporele prompts te genereren die geassocieerd zijn met de verwijzende zin. Hoewel hoogwaardige temporele prompts kunnen worden geproduceerd, kunnen ze niet eenvoudig worden geïdentificeerd aan de hand van betrouwbaarheidsscores. Om dit probleem aan te pakken, stellen we Prompt Preference Learning voor om de kwaliteit van de geproduceerde temporele prompts te evalueren. Door dergelijke prompts te gebruiken om op afbeeldingen gebaseerde foundation-segmentatiemodellen te instrueren, kunnen we hoogwaardige maskers produceren voor het bedoelde object, waardoor efficiënte modelaanpassing aan verwijzende video-objectsegmentatie mogelijk wordt. Experimenten op RVOS-benchmarks demonstreren de effectiviteit van het Tenet-framework.
English
Referring Video Object Segmentation (RVOS) aims to segment the object referred to by the query sentence in the video. Most existing methods require end-to-end training with dense mask annotations, which could be computation-consuming and less scalable. In this work, we rethink the RVOS problem and aim to investigate the key to this task. Based on existing foundation segmentation models, we decompose the RVOS task into referring, video, and segmentation factors, and propose a Temporal Prompt Generation and Selection (Tenet) framework to address the referring and video factors while leaving the segmentation problem to foundation models. To efficiently adapt image-based foundation segmentation models to referring video object segmentation, we leverage off-the-shelf object detectors and trackers to produce temporal prompts associated with the referring sentence. While high-quality temporal prompts could be produced, they can not be easily identified from confidence scores. To tackle this issue, we propose Prompt Preference Learning to evaluate the quality of the produced temporal prompts. By taking such prompts to instruct image-based foundation segmentation models, we would be able to produce high-quality masks for the referred object, enabling efficient model adaptation to referring video object segmentation. Experiments on RVOS benchmarks demonstrate the effectiveness of the Tenet framework.
PDF22October 13, 2025