ChatPaper.aiChatPaper

ReVSeg: Anreiz der Denkkette für Videosegmentierung mit Verstärkungslernen

ReVSeg: Incentivizing the Reasoning Chain for Video Segmentation with Reinforcement Learning

December 2, 2025
papers.authors: Yifan Li, Yingda Yin, Lingting Zhu, Weikai Chen, Shengju Qian, Xin Wang, Yanwei Fu
cs.AI

papers.abstract

Reasoning-zentrische Video-Objektssegmentierung ist eine inhärent komplexe Aufgabe: Die Anfrage bezieht sich oft auf Dynamik, Kausalität und temporale Interaktionen anstatt auf statische Erscheinungsbilder. Bisherige Lösungen reduzieren diese Faktoren jedoch meist auf vereinfachtes Reasoning mit latenten Einbettungen, was die Reasoning-Kette undurchsichtig und im Wesentlichen nicht nachvollziehbar macht. Daher nehmen wir eine explizite Zerlegungsperspektive ein und führen ReVSeg ein, welches Reasoning als sequenzielle Entscheidungen in der nativen Schnittstelle vortrainierter Vision-Language-Modelle (VLMs) ausführt. Anstatt das gesamte Reasoning in eine Ein-Schritt-Vorhersage zu komprimieren, führt ReVSeg drei explizite Operationen aus – semantische Interpretation, temporale Evidenzauswahl und räumliche Verankerung – und richtet diese an vortrainierten Fähigkeiten aus. Weiterhin setzen wir bestärkendes Lernen ein, um die mehrstufige Reasoning-Kette zu optimieren, sodass das Modell seine Entscheidungsqualität anhand ergebnisgesteuerter Signale selbst verbessern kann. Experimentelle Ergebnisse zeigen, dass ReVSeg state-of-the-art Leistungen auf standardisierten Video-Objektssegmentierungs-Benchmarks erreicht und interpretierbare Reasoning-Pfade liefert. Die Projektseite ist unter https://clementine24.github.io/ReVSeg/ verfügbar.
English
Reasoning-centric video object segmentation is an inherently complex task: the query often refers to dynamics, causality, and temporal interactions, rather than static appearances. Yet existing solutions generally collapse these factors into simplified reasoning with latent embeddings, rendering the reasoning chain opaque and essentially intractable. We therefore adopt an explicit decomposition perspective and introduce ReVSeg, which executes reasoning as sequential decisions in the native interface of pretrained vision language models (VLMs). Rather than folding all reasoning into a single-step prediction, ReVSeg executes three explicit operations -- semantics interpretation, temporal evidence selection, and spatial grounding -- aligning pretrained capabilities. We further employ reinforcement learning to optimize the multi-step reasoning chain, enabling the model to self-refine its decision quality from outcome-driven signals. Experimental results demonstrate that ReVSeg attains state-of-the-art performances on standard video object segmentation benchmarks and yields interpretable reasoning trajectories. Project page is available at https://clementine24.github.io/ReVSeg/ .
PDF92December 9, 2025