ReVSeg: Incentivando a Cadeia de Raciocínio para Segmentação de Vídeo com Aprendizado por Reforço

Resumo

A segmentação de objetos em vídeo centrada no raciocínio é uma tarefa intrinsecamente complexa: a consulta frequentemente refere-se a dinâmicas, causalidade e interações temporais, em vez de aparências estáticas. No entanto, as soluções existentes geralmente colapsam esses fatores em raciocínios simplificados com incorporações latentes, tornando a cadeia de raciocínio opaca e essencialmente intratável. Adotamos, portanto, uma perspectiva de decomposição explícita e introduzimos o ReVSeg, que executa o raciocínio como decisões sequenciais na interface nativa de modelos de visão e linguagem pré-treinados (VLMs). Em vez de dobrar todo o raciocínio em uma previsão de etapa única, o ReVSeg executa três operações explícitas — interpretação semântica, seleção de evidências temporais e fundamentação espacial — alinhando capacidades pré-treinadas. Empregamos ainda o aprendizado por reforço para otimizar a cadeia de raciocínio de múltiplas etapas, permitindo que o modelo refine automaticamente a qualidade da sua decisão a partir de sinais orientados por resultados. Resultados experimentais demonstram que o ReVSeg atinge desempenhos state-of-the-art em benchmarks padrão de segmentação de objetos em vídeo e produz trajetórias de raciocínio interpretáveis. A página do projeto está disponível em https://clementine24.github.io/ReVSeg/.

English

Reasoning-centric video object segmentation is an inherently complex task: the query often refers to dynamics, causality, and temporal interactions, rather than static appearances. Yet existing solutions generally collapse these factors into simplified reasoning with latent embeddings, rendering the reasoning chain opaque and essentially intractable. We therefore adopt an explicit decomposition perspective and introduce ReVSeg, which executes reasoning as sequential decisions in the native interface of pretrained vision language models (VLMs). Rather than folding all reasoning into a single-step prediction, ReVSeg executes three explicit operations -- semantics interpretation, temporal evidence selection, and spatial grounding -- aligning pretrained capabilities. We further employ reinforcement learning to optimize the multi-step reasoning chain, enabling the model to self-refine its decision quality from outcome-driven signals. Experimental results demonstrate that ReVSeg attains state-of-the-art performances on standard video object segmentation benchmarks and yields interpretable reasoning trajectories. Project page is available at https://clementine24.github.io/ReVSeg/ .

ReVSeg: Incentivando a Cadeia de Raciocínio para Segmentação de Vídeo com Aprendizado por Reforço

ReVSeg: Incentivizing the Reasoning Chain for Video Segmentation with Reinforcement Learning

Resumo

Support