ChatPaper.aiChatPaper

Seg-Zero: Сегментация с направляющей цепочкой рассуждений через когнитивное подкрепление

Seg-Zero: Reasoning-Chain Guided Segmentation via Cognitive Reinforcement

March 9, 2025
Авторы: Yuqi Liu, Bohao Peng, Zhisheng Zhong, Zihao Yue, Fanbin Lu, Bei Yu, Jiaya Jia
cs.AI

Аннотация

Традиционные методы для сегментации с рассуждениями полагаются на контролируемую тонкую настройку с использованием категориальных меток и простых описаний, что ограничивает их обобщаемость за пределами домена и не включает явные процессы рассуждений. Чтобы устранить эти ограничения, мы предлагаем Seg-Zero — новую структуру, которая демонстрирует выдающуюся обобщаемость и выводит явные цепочки рассуждений через когнитивное усиление. Seg-Zero представляет собой разделенную архитектуру, состоящую из модели рассуждений и модели сегментации. Модель рассуждений интерпретирует намерения пользователя, генерирует явные цепочки рассуждений и создает позиционные подсказки, которые затем используются моделью сегментации для создания точных масок на уровне пикселей. Мы разработали сложный механизм вознаграждения, который объединяет как формальные, так и точностные вознаграждения, чтобы эффективно направлять процесс оптимизации. Обучаясь исключительно с помощью обучения с подкреплением с использованием GRPO и без явных данных для рассуждений, Seg-Zero достигает устойчивой обобщаемости в условиях zero-shot и демонстрирует возникающие способности к рассуждениям во время тестирования. Эксперименты показывают, что Seg-Zero-7B достигает показателя zero-shot в 57,5 на бенчмарке ReasonSeg, превосходя предыдущий результат LISA-7B на 18\%. Это значительное улучшение подчеркивает способность Seg-Zero обобщать данные между доменами, предоставляя явный процесс рассуждений. Код доступен по адресу https://github.com/dvlab-research/Seg-Zero.
English
Traditional methods for reasoning segmentation rely on supervised fine-tuning with categorical labels and simple descriptions, limiting its out-of-domain generalization and lacking explicit reasoning processes. To address these limitations, we propose Seg-Zero, a novel framework that demonstrates remarkable generalizability and derives explicit chain-of-thought reasoning through cognitive reinforcement. Seg-Zero introduces a decoupled architecture consisting of a reasoning model and a segmentation model. The reasoning model interprets user intentions, generates explicit reasoning chains, and produces positional prompts, which are subsequently used by the segmentation model to generate precious pixel-level masks. We design a sophisticated reward mechanism that integrates both format and accuracy rewards to effectively guide optimization directions. Trained exclusively via reinforcement learning with GRPO and without explicit reasoning data, Seg-Zero achieves robust zero-shot generalization and exhibits emergent test-time reasoning capabilities. Experiments show that Seg-Zero-7B achieves a zero-shot performance of 57.5 on the ReasonSeg benchmark, surpassing the prior LISA-7B by 18\%. This significant improvement highlights Seg-Zero's ability to generalize across domains while presenting an explicit reasoning process. Code is available at https://github.com/dvlab-research/Seg-Zero.

Summary

AI-Generated Summary

PDF112March 11, 2025