Seg-Zero: Segmentação Guiada por Cadeia de Raciocínio via Reforço Cognitivo

Resumo

Métodos tradicionais para segmentação baseada em raciocínio dependem de ajuste fino supervisionado com rótulos categóricos e descrições simples, limitando sua generalização fora do domínio e carecendo de processos de raciocínio explícitos. Para abordar essas limitações, propomos o Seg-Zero, uma nova estrutura que demonstra notável generalização e deriva cadeias de raciocínio explícitas por meio de reforço cognitivo. O Seg-Zero introduz uma arquitetura desacoplada composta por um modelo de raciocínio e um modelo de segmentação. O modelo de raciocínio interpreta as intenções do usuário, gera cadeias de raciocínio explícitas e produz prompts posicionais, que são subsequentemente usados pelo modelo de segmentação para gerar máscaras precisas em nível de pixel. Projetamos um mecanismo de recompensa sofisticado que integra recompensas de formato e precisão para orientar efetivamente as direções de otimização. Treinado exclusivamente por meio de aprendizado por reforço com GRPO e sem dados explícitos de raciocínio, o Seg-Zero alcança robusta generalização zero-shot e exibe capacidades emergentes de raciocínio em tempo de teste. Experimentos mostram que o Seg-Zero-7B atinge um desempenho zero-shot de 57,5 no benchmark ReasonSeg, superando o LISA-7B anterior em 18%. Essa melhoria significativa destaca a capacidade do Seg-Zero de generalizar entre domínios enquanto apresenta um processo de raciocínio explícito. O código está disponível em https://github.com/dvlab-research/Seg-Zero.

English

Traditional methods for reasoning segmentation rely on supervised fine-tuning with categorical labels and simple descriptions, limiting its out-of-domain generalization and lacking explicit reasoning processes. To address these limitations, we propose Seg-Zero, a novel framework that demonstrates remarkable generalizability and derives explicit chain-of-thought reasoning through cognitive reinforcement. Seg-Zero introduces a decoupled architecture consisting of a reasoning model and a segmentation model. The reasoning model interprets user intentions, generates explicit reasoning chains, and produces positional prompts, which are subsequently used by the segmentation model to generate precious pixel-level masks. We design a sophisticated reward mechanism that integrates both format and accuracy rewards to effectively guide optimization directions. Trained exclusively via reinforcement learning with GRPO and without explicit reasoning data, Seg-Zero achieves robust zero-shot generalization and exhibits emergent test-time reasoning capabilities. Experiments show that Seg-Zero-7B achieves a zero-shot performance of 57.5 on the ReasonSeg benchmark, surpassing the prior LISA-7B by 18\%. This significant improvement highlights Seg-Zero's ability to generalize across domains while presenting an explicit reasoning process. Code is available at https://github.com/dvlab-research/Seg-Zero.

Seg-Zero: Segmentação Guiada por Cadeia de Raciocínio via Reforço Cognitivo

Seg-Zero: Reasoning-Chain Guided Segmentation via Cognitive Reinforcement

Resumo

Support