ReVSeg: Стимулирование цепочки рассуждений для сегментации видео с помощью обучения с подкреплением
ReVSeg: Incentivizing the Reasoning Chain for Video Segmentation with Reinforcement Learning
December 2, 2025
Авторы: Yifan Li, Yingda Yin, Lingting Zhu, Weikai Chen, Shengju Qian, Xin Wang, Yanwei Fu
cs.AI
Аннотация
Сегментация объектов на видео, ориентированная на рассуждения, является по своей природе сложной задачей: запрос часто отсылает к динамике, причинно-следственным связям и временным взаимодействиям, а не к статичным внешним признакам. Однако существующие решения обычно сводят эти факторы к упрощенному рассуждению с латентными представлениями, что делает цепочку рассуждений непрозрачной и по сути не поддающейся анализу. Поэтому мы принимаем перспективу явной декомпозиции и представляем ReVSeg, который выполняет рассуждения как последовательность решений в естественном интерфейсе предварительно обученных визуально-языковых моделей (VLM). Вместо того чтобы объединять все рассуждения в одношаговый прогноз, ReVSeg выполняет три явные операции — интерпретацию семантики, выбор временных свидетельств и пространственную привязку — согласуя предобученные возможности. Мы также используем обучение с подкреплением для оптимизации многошаговой цепочки рассуждений, позволяя модели самостоятельно улучшать качество своих решений на основе сигналов, определяемых результатом. Результаты экспериментов показывают, что ReVSeg достигает передовых результатов на стандартных бенчмарках для сегментации объектов на видео и порождает интерпретируемые траектории рассуждений. Страница проекта доступна по адресу https://clementine24.github.io/ReVSeg/.
English
Reasoning-centric video object segmentation is an inherently complex task: the query often refers to dynamics, causality, and temporal interactions, rather than static appearances. Yet existing solutions generally collapse these factors into simplified reasoning with latent embeddings, rendering the reasoning chain opaque and essentially intractable. We therefore adopt an explicit decomposition perspective and introduce ReVSeg, which executes reasoning as sequential decisions in the native interface of pretrained vision language models (VLMs). Rather than folding all reasoning into a single-step prediction, ReVSeg executes three explicit operations -- semantics interpretation, temporal evidence selection, and spatial grounding -- aligning pretrained capabilities. We further employ reinforcement learning to optimize the multi-step reasoning chain, enabling the model to self-refine its decision quality from outcome-driven signals. Experimental results demonstrate that ReVSeg attains state-of-the-art performances on standard video object segmentation benchmarks and yields interpretable reasoning trajectories. Project page is available at https://clementine24.github.io/ReVSeg/ .