Seg-Zero: 인지 강화를 통한 추론 체인 기반 세분화
Seg-Zero: Reasoning-Chain Guided Segmentation via Cognitive Reinforcement
March 9, 2025
저자: Yuqi Liu, Bohao Peng, Zhisheng Zhong, Zihao Yue, Fanbin Lu, Bei Yu, Jiaya Jia
cs.AI
초록
기존의 추론 기반 세분화 방법은 범주형 레이블과 간단한 설명을 사용한 지도 미세 조정에 의존하며, 이는 도메인 외 일반화를 제한하고 명시적인 추론 과정이 부족하다는 한계를 지니고 있습니다. 이러한 한계를 해결하기 위해, 우리는 인지 강화를 통해 놀라운 일반화 능력을 보여주고 명시적인 사고 연쇄 추론을 도출하는 새로운 프레임워크인 Seg-Zero를 제안합니다. Seg-Zero는 추론 모델과 세분화 모델로 구성된 분리형 아키텍처를 도입합니다. 추론 모델은 사용자의 의도를 해석하고 명시적인 추론 체인을 생성하며 위치 프롬프트를 생성하는데, 이는 이후 세분화 모델이 정밀한 픽셀 수준의 마스크를 생성하는 데 사용됩니다. 우리는 형식과 정확도 보상을 통합하여 최적화 방향을 효과적으로 안내하는 정교한 보상 메커니즘을 설계했습니다. GRPO를 사용한 강화 학습만으로 훈련되고 명시적인 추론 데이터 없이도, Seg-Zero는 강력한 제로샷 일반화 능력을 달성하고 테스트 시점에서의 추론 능력을 보여줍니다. 실험 결과, Seg-Zero-7B는 ReasonSeg 벤치마크에서 57.5의 제로샷 성능을 달성하며, 이전 LISA-7B보다 18% 우수한 성능을 보였습니다. 이는 Seg-Zero가 도메인 간 일반화 능력을 갖추면서도 명시적인 추론 과정을 제시할 수 있음을 보여줍니다. 코드는 https://github.com/dvlab-research/Seg-Zero에서 확인할 수 있습니다.
English
Traditional methods for reasoning segmentation rely on supervised fine-tuning
with categorical labels and simple descriptions, limiting its out-of-domain
generalization and lacking explicit reasoning processes. To address these
limitations, we propose Seg-Zero, a novel framework that demonstrates
remarkable generalizability and derives explicit chain-of-thought reasoning
through cognitive reinforcement. Seg-Zero introduces a decoupled architecture
consisting of a reasoning model and a segmentation model. The reasoning model
interprets user intentions, generates explicit reasoning chains, and produces
positional prompts, which are subsequently used by the segmentation model to
generate precious pixel-level masks. We design a sophisticated reward mechanism
that integrates both format and accuracy rewards to effectively guide
optimization directions. Trained exclusively via reinforcement learning with
GRPO and without explicit reasoning data, Seg-Zero achieves robust zero-shot
generalization and exhibits emergent test-time reasoning capabilities.
Experiments show that Seg-Zero-7B achieves a zero-shot performance of 57.5 on
the ReasonSeg benchmark, surpassing the prior LISA-7B by 18\%. This significant
improvement highlights Seg-Zero's ability to generalize across domains while
presenting an explicit reasoning process. Code is available at
https://github.com/dvlab-research/Seg-Zero.Summary
AI-Generated Summary