Zeitliche Anregung ist entscheidend: Eine Neubetrachtung der referenziellen Videoobjektsegmentierung
Temporal Prompting Matters: Rethinking Referring Video Object Segmentation
October 8, 2025
papers.authors: Ci-Siang Lin, Min-Hung Chen, I-Jieh Liu, Chien-Yi Wang, Sifei Liu, Yu-Chiang Frank Wang
cs.AI
papers.abstract
Die Segmentierung von Videoobjekten durch Referenzierung (Referring Video Object Segmentation, RVOS) zielt darauf ab, das Objekt zu segmentieren, das durch den Abfragesatz im Video bezeichnet wird. Die meisten bestehenden Methoden erfordern ein End-to-End-Training mit dichten Maskenanmerkungen, was rechenintensiv und weniger skalierbar sein kann. In dieser Arbeit überdenken wir das RVOS-Problem und untersuchen den Schlüssel zu dieser Aufgabe. Basierend auf bestehenden Grundlagen-Segmentierungsmodellen zerlegen wir die RVOS-Aufgabe in Referenzierungs-, Video- und Segmentierungsfaktoren und schlagen ein Temporal Prompt Generation and Selection (Tenet)-Framework vor, um die Referenzierungs- und Videofaktoren zu adressieren, während das Segmentierungsproblem den Grundlagenmodellen überlassen wird. Um bildbasierte Grundlagen-Segmentierungsmodelle effizient an die Segmentierung von Videoobjekten durch Referenzierung anzupassen, nutzen wir verfügbare Objekterkennungs- und Tracking-Systeme, um zeitliche Prompts zu erzeugen, die mit dem Referenzsatz verknüpft sind. Obwohl hochwertige zeitliche Prompts erzeugt werden können, lassen sie sich nicht einfach anhand von Konfidenzwerten identifizieren. Um dieses Problem zu lösen, schlagen wir Prompt Preference Learning vor, um die Qualität der erzeugten zeitlichen Prompts zu bewerten. Durch die Verwendung solcher Prompts zur Anleitung bildbasierter Grundlagen-Segmentierungsmodelle können wir hochwertige Masken für das bezeichnete Objekt erzeugen, was eine effiziente Modellanpassung an die Segmentierung von Videoobjekten durch Referenzierung ermöglicht. Experimente auf RVOS-Benchmarks demonstrieren die Wirksamkeit des Tenet-Frameworks.
English
Referring Video Object Segmentation (RVOS) aims to segment the object
referred to by the query sentence in the video. Most existing methods require
end-to-end training with dense mask annotations, which could be
computation-consuming and less scalable. In this work, we rethink the RVOS
problem and aim to investigate the key to this task. Based on existing
foundation segmentation models, we decompose the RVOS task into referring,
video, and segmentation factors, and propose a Temporal Prompt Generation and
Selection (Tenet) framework to address the referring and video factors while
leaving the segmentation problem to foundation models. To efficiently adapt
image-based foundation segmentation models to referring video object
segmentation, we leverage off-the-shelf object detectors and trackers to
produce temporal prompts associated with the referring sentence. While
high-quality temporal prompts could be produced, they can not be easily
identified from confidence scores. To tackle this issue, we propose Prompt
Preference Learning to evaluate the quality of the produced temporal prompts.
By taking such prompts to instruct image-based foundation segmentation models,
we would be able to produce high-quality masks for the referred object,
enabling efficient model adaptation to referring video object segmentation.
Experiments on RVOS benchmarks demonstrate the effectiveness of the Tenet
framework.