ReVSeg: Incentivizzare la Catena di Ragionamento per la Segmentazione Video con Apprendimento per Rinforzo
ReVSeg: Incentivizing the Reasoning Chain for Video Segmentation with Reinforcement Learning
December 2, 2025
Autori: Yifan Li, Yingda Yin, Lingting Zhu, Weikai Chen, Shengju Qian, Xin Wang, Yanwei Fu
cs.AI
Abstract
La segmentazione video di oggetti centrata sul ragionamento è un compito intrinsecamente complesso: la query spesso si riferisce a dinamiche, causalità e interazioni temporali, piuttosto che ad apparenze statiche. Tuttavia, le soluzioni esistenti generalmente comprimono questi fattori in ragionamenti semplificati con embedding latenti, rendendo la catena deduttiva opaca e sostanzialmente intrattabile. Adottiamo pertanto una prospettiva di scomposizione esplicita e introduciamo ReVSeg, che esegue il ragionamento come decisioni sequenziali nell'interfaccia nativa di modelli visione-linguaggio (VLM) preaddestrati. Invece di condensare tutto il ragionamento in una previsione a singolo passo, ReVSeg esegue tre operazioni esplicite - interpretazione semantica, selezione di evidenze temporali e grounding spaziale - allineando le capacità preesistenti. Utilizziamo inoltre l'apprendimento per rinforzo per ottimizzare la catena deduttiva multi-step, consentendo al modello di affinare autonomamente la qualità delle sue decisioni sulla base di segnali guidati dai risultati. I risultati sperimentali dimostrano che ReVSeg raggiunge prestazioni all'avanguardia sui benchmark standard di segmentazione video di oggetti e produce traiettorie di ragionamento interpretabili. La pagina del progetto è disponibile all'indirizzo https://clementine24.github.io/ReVSeg/.
English
Reasoning-centric video object segmentation is an inherently complex task: the query often refers to dynamics, causality, and temporal interactions, rather than static appearances. Yet existing solutions generally collapse these factors into simplified reasoning with latent embeddings, rendering the reasoning chain opaque and essentially intractable. We therefore adopt an explicit decomposition perspective and introduce ReVSeg, which executes reasoning as sequential decisions in the native interface of pretrained vision language models (VLMs). Rather than folding all reasoning into a single-step prediction, ReVSeg executes three explicit operations -- semantics interpretation, temporal evidence selection, and spatial grounding -- aligning pretrained capabilities. We further employ reinforcement learning to optimize the multi-step reasoning chain, enabling the model to self-refine its decision quality from outcome-driven signals. Experimental results demonstrate that ReVSeg attains state-of-the-art performances on standard video object segmentation benchmarks and yields interpretable reasoning trajectories. Project page is available at https://clementine24.github.io/ReVSeg/ .