ReVSeg: Het Redeneerproces Stimuleren voor Videosegmentatie met Versterkingsleren
ReVSeg: Incentivizing the Reasoning Chain for Video Segmentation with Reinforcement Learning
December 2, 2025
Auteurs: Yifan Li, Yingda Yin, Lingting Zhu, Weikai Chen, Shengju Qian, Xin Wang, Yanwei Fu
cs.AI
Samenvatting
Reasoning-gerichte video-objectsegmentatie is een inherent complexe taak: de query verwijst vaak naar dynamiek, causaliteit en temporele interacties, in plaats van naar statische verschijningsvormen. Toch comprimeren bestaande oplossingen deze factoren doorgaans tot vereenvoudigd redeneren met latente embeddings, wat de redeneerketen ondoorzichtig en in wezen onhanteerbaar maakt. Daarom hanteren wij een perspectief van expliciete decompositie en introduceren ReVSeg, dat redeneren uitvoert als opeenvolgende beslissingen in de native interface van voorgetrainde vision-language-modellen (VLM's). In plaats van alle redenering te vouwen in een eenstapsvoorspelling, voert ReVSeg drie expliciete operaties uit — semantische interpretatie, temporele evidentieselectie en spatiale verankering — die afgestemd zijn op voorgetrainde capaciteiten. Wij zetten verder reinforcement learning in om de meerstapsredeneerketen te optimaliseren, waardoor het model zijn beslissingskwaliteit kan zelf-verfijnen op basis van resultaatgestuurde signalen. Experimentele resultaten tonen aan dat ReVSeg state-of-the-art prestaties behaalt op standaard video-objectsegmentatiebenchmarks en interpreteerbare redeneertrajecten oplevert. De projectpagina is beschikbaar op https://clementine24.github.io/ReVSeg/.
English
Reasoning-centric video object segmentation is an inherently complex task: the query often refers to dynamics, causality, and temporal interactions, rather than static appearances. Yet existing solutions generally collapse these factors into simplified reasoning with latent embeddings, rendering the reasoning chain opaque and essentially intractable. We therefore adopt an explicit decomposition perspective and introduce ReVSeg, which executes reasoning as sequential decisions in the native interface of pretrained vision language models (VLMs). Rather than folding all reasoning into a single-step prediction, ReVSeg executes three explicit operations -- semantics interpretation, temporal evidence selection, and spatial grounding -- aligning pretrained capabilities. We further employ reinforcement learning to optimize the multi-step reasoning chain, enabling the model to self-refine its decision quality from outcome-driven signals. Experimental results demonstrate that ReVSeg attains state-of-the-art performances on standard video object segmentation benchmarks and yields interpretable reasoning trajectories. Project page is available at https://clementine24.github.io/ReVSeg/ .