ChatPaper.aiChatPaper

ReVSeg:強化学習によるビデオセグメンテーションのための推論連鎖の促進

ReVSeg: Incentivizing the Reasoning Chain for Video Segmentation with Reinforcement Learning

December 2, 2025
著者: Yifan Li, Yingda Yin, Lingting Zhu, Weikai Chen, Shengju Qian, Xin Wang, Yanwei Fu
cs.AI

要旨

推論中心の映像オブジェクト分割は本質的に複雑な課題である。クエリは静的な外観ではなく、動的挙動、因果関係、時間的相互作用を指すことが多い。しかし既存の手法は、これらの要素を潜在埋め込みによる簡略化された推論に集約しがちで、推論プロセスを不透明かつ本質的に追跡不能にしている。そこで我々は明示的な分解アプローチを採用し、ReVSegを提案する。これは事前学習済み視覚言語モデル(VLM)のネイティブインターフェースにおいて、推論を連続的な意思決定として実行する。すべての推論を単一段階の予測に折り畳むのではなく、ReVSegは意味解釈、時間的証拠選択、空間的接地という3つの明示的操作を実行し、事前学習済み能力を連携させる。さらに強化学習を採用して多段階推論チェーンを最適化し、結果に基づく信号から意思決定の質を自己改善できるようにする。実験結果では、ReVSegが標準的な映像オブジェクト分割ベンチマークで最高性能を達成し、解釈可能な推論軌跡を生成することを実証した。プロジェクトページはhttps://clementine24.github.io/ReVSeg/ で公開されている。
English
Reasoning-centric video object segmentation is an inherently complex task: the query often refers to dynamics, causality, and temporal interactions, rather than static appearances. Yet existing solutions generally collapse these factors into simplified reasoning with latent embeddings, rendering the reasoning chain opaque and essentially intractable. We therefore adopt an explicit decomposition perspective and introduce ReVSeg, which executes reasoning as sequential decisions in the native interface of pretrained vision language models (VLMs). Rather than folding all reasoning into a single-step prediction, ReVSeg executes three explicit operations -- semantics interpretation, temporal evidence selection, and spatial grounding -- aligning pretrained capabilities. We further employ reinforcement learning to optimize the multi-step reasoning chain, enabling the model to self-refine its decision quality from outcome-driven signals. Experimental results demonstrate that ReVSeg attains state-of-the-art performances on standard video object segmentation benchmarks and yields interpretable reasoning trajectories. Project page is available at https://clementine24.github.io/ReVSeg/ .
PDF92December 9, 2025