ReVSeg: Incentivando la Cadena de Razonamiento para la Segmentación de Videos con Aprendizaje por Refuerzo
ReVSeg: Incentivizing the Reasoning Chain for Video Segmentation with Reinforcement Learning
December 2, 2025
Autores: Yifan Li, Yingda Yin, Lingting Zhu, Weikai Chen, Shengju Qian, Xin Wang, Yanwei Fu
cs.AI
Resumen
La segmentación de objetos en vídeo centrada en el razonamiento es una tarea inherentemente compleja: la consulta a menudo se refiere a dinámicas, causalidad e interacciones temporales, en lugar de apariencias estáticas. Sin embargo, las soluciones existentes generalmente colapsan estos factores en un razonamiento simplificado con incrustaciones latentes, lo que hace que la cadena de razonamiento sea opaca y esencialmente intratable. Por lo tanto, adoptamos una perspectiva de descomposición explícita e introducimos ReVSeg, que ejecuta el razonamiento como decisiones secuenciales en la interfaz nativa de los modelos de visión y lenguaje preentrenados (VLMs). En lugar de plegar todo el razonamiento en una predicción de un solo paso, ReVSeg ejecuta tres operaciones explícitas (interpretación semántica, selección de evidencia temporal y localización espacial), alineando las capacidades preentrenadas. Además, empleamos el aprendizaje por refuerzo para optimizar la cadena de razonamiento de múltiples pasos, permitiendo que el modelo refine automáticamente la calidad de sus decisiones a partir de señales basadas en los resultados. Los resultados experimentales demuestran que ReVSeg alcanza un rendimiento de vanguardia en los benchmarks estándar de segmentación de objetos en vídeo y produce trayectorias de razonamiento interpretables. La página del proyecto está disponible en https://clementine24.github.io/ReVSeg/.
English
Reasoning-centric video object segmentation is an inherently complex task: the query often refers to dynamics, causality, and temporal interactions, rather than static appearances. Yet existing solutions generally collapse these factors into simplified reasoning with latent embeddings, rendering the reasoning chain opaque and essentially intractable. We therefore adopt an explicit decomposition perspective and introduce ReVSeg, which executes reasoning as sequential decisions in the native interface of pretrained vision language models (VLMs). Rather than folding all reasoning into a single-step prediction, ReVSeg executes three explicit operations -- semantics interpretation, temporal evidence selection, and spatial grounding -- aligning pretrained capabilities. We further employ reinforcement learning to optimize the multi-step reasoning chain, enabling the model to self-refine its decision quality from outcome-driven signals. Experimental results demonstrate that ReVSeg attains state-of-the-art performances on standard video object segmentation benchmarks and yields interpretable reasoning trajectories. Project page is available at https://clementine24.github.io/ReVSeg/ .