ChatPaper.aiChatPaper

ReVSeg: 강화 학습을 활용한 비디오 분할의 추론 과정 강화

ReVSeg: Incentivizing the Reasoning Chain for Video Segmentation with Reinforcement Learning

December 2, 2025
저자: Yifan Li, Yingda Yin, Lingting Zhu, Weikai Chen, Shengju Qian, Xin Wang, Yanwei Fu
cs.AI

초록

추론 중심 비디오 객체 분할은 본질적으로 복잡한 과제입니다. 쿼리는 정적 외형이 아닌 동역학, 인과관리, 시간적 상호작용을 참조하는 경우가 많기 때문입니다. 그러나 기존 솔루션들은 일반적으로 이러한 요소들을 잠재 임베딩을 통한 단순화된 추론으로 축소하여 추론 과정을 불투명하고 실질적으로 추적 불가능하게 만듭니다. 이에 우리는 명시적 분해 관점을 채택하고 사전 학습된 비전-언어 모델(VLM)의 기본 인터페이스에서 추론을 순차적 결정으로 실행하는 ReVSeg를 소개합니다. 모든 추론을 단일 단계 예측으로 접는 대신, ReVSeg는 의미 해석, 시간적 증거 선택, 공간적 위치 파악이라는 세 가지 명시적 연산을 실행하여 사전 학습된 능력을 정렬합니다. 더 나아가 강화 학습을 활용하여 다단계 추론 체인을 최적화함으로써 모델이 결과 기반 신호로부터 자신의 결정 품질을 자체 개선할 수 있게 합니다. 실험 결과, ReVSeg는 표준 비디오 객체 분할 벤치마크에서 최첨단 성능을 달성하고 해석 가능한 추론 궤적을 생성함을 보여줍니다. 프로젝트 페이지는 https://clementine24.github.io/ReVSeg/에서 확인할 수 있습니다.
English
Reasoning-centric video object segmentation is an inherently complex task: the query often refers to dynamics, causality, and temporal interactions, rather than static appearances. Yet existing solutions generally collapse these factors into simplified reasoning with latent embeddings, rendering the reasoning chain opaque and essentially intractable. We therefore adopt an explicit decomposition perspective and introduce ReVSeg, which executes reasoning as sequential decisions in the native interface of pretrained vision language models (VLMs). Rather than folding all reasoning into a single-step prediction, ReVSeg executes three explicit operations -- semantics interpretation, temporal evidence selection, and spatial grounding -- aligning pretrained capabilities. We further employ reinforcement learning to optimize the multi-step reasoning chain, enabling the model to self-refine its decision quality from outcome-driven signals. Experimental results demonstrate that ReVSeg attains state-of-the-art performances on standard video object segmentation benchmarks and yields interpretable reasoning trajectories. Project page is available at https://clementine24.github.io/ReVSeg/ .
PDF92December 9, 2025