ChatPaper.aiChatPaper

ReVSeg : Inciter la chaîne de raisonnement pour la segmentation vidéo par apprentissage par renforcement

ReVSeg: Incentivizing the Reasoning Chain for Video Segmentation with Reinforcement Learning

December 2, 2025
papers.authors: Yifan Li, Yingda Yin, Lingting Zhu, Weikai Chen, Shengju Qian, Xin Wang, Yanwei Fu
cs.AI

papers.abstract

La segmentation vidéo centrée sur le raisonnement est une tâche intrinsèquement complexe : la requête fait souvent référence à des dynamiques, des causalités et des interactions temporelles plutôt qu'à des apparences statiques. Pourtant, les solutions existantes réduisent généralement ces facteurs à un raisonnement simplifié via des embeddings latents, rendant la chaîne de raisonnement opaque et essentiellement intraitable. Nous adoptons donc une perspective de décomposition explicite et introduisons ReVSeg, qui exécute le raisonnement sous forme de décisions séquentielles dans l'interface native des modèles vision-langage pré-entraînés (VLM). Au lieu de condenser tout le raisonnement en une prédiction en une seule étape, ReVSeg exécute trois opérations explicites — interprétation sémantique, sélection de preuves temporelles et ancrage spatial — alignant ainsi les capacités pré-entraînées. Nous utilisons en outre l'apprentissage par renforcement pour optimiser la chaîne de raisonnement multi-étapes, permettant au modèle d'auto-affiner la qualité de ses décisions à partir de signaux guidés par les résultats. Les résultats expérimentaux démontrent que ReVSeg atteint des performances de pointe sur les benchmarks standards de segmentation vidéo d'objets et produit des trajectoires de raisonnement interprétables. La page du projet est disponible à l'adresse https://clementine24.github.io/ReVSeg/.
English
Reasoning-centric video object segmentation is an inherently complex task: the query often refers to dynamics, causality, and temporal interactions, rather than static appearances. Yet existing solutions generally collapse these factors into simplified reasoning with latent embeddings, rendering the reasoning chain opaque and essentially intractable. We therefore adopt an explicit decomposition perspective and introduce ReVSeg, which executes reasoning as sequential decisions in the native interface of pretrained vision language models (VLMs). Rather than folding all reasoning into a single-step prediction, ReVSeg executes three explicit operations -- semantics interpretation, temporal evidence selection, and spatial grounding -- aligning pretrained capabilities. We further employ reinforcement learning to optimize the multi-step reasoning chain, enabling the model to self-refine its decision quality from outcome-driven signals. Experimental results demonstrate that ReVSeg attains state-of-the-art performances on standard video object segmentation benchmarks and yields interpretable reasoning trajectories. Project page is available at https://clementine24.github.io/ReVSeg/ .
PDF92December 9, 2025