Не гадай, просто спроси: Разрешение неоднозначности в референциальной сегментации с помощью многораундового уточнения

Аннотация

Референтная сегментация направлена на выделение целевых объектов на изображениях или видео на основе текстового запроса. Несмотря на значительный прогресс за последние годы, существующие работы всегда исходят из предположения, что предоставляемые пользователем запросы уже точны и однозначны. Однако это предположение непрактично. В реальных сценариях нереалистично ожидать, что все пользователи тщательно изучат визуальное содержимое и внимательно обеспечат уникальность и однозначность своих запросов. В таких случаях существующие модели сегментации склонны произвольно угадывать предпочтения пользователя, что часто приводит к нежелательным результатам. Для устранения этого ограничения мы предлагаем IC-Seg — новый агентный фреймворк, который активно выясняет намерения пользователя посредством многопоточного диалога перед сегментацией. Для эффективного стимулирования этой способности мы дополнительно вводим Hi-GRPO — новую иерархическую стратегию оптимизации, которая внедряет плотные и информативные сигналы контроля на уровнях траектории, поворота и шага. Эта стратегия способствует эффективному уточнению намерений, устраняя избыточные взаимодействия и повышая общее качество диалога. Для оценки мы создали Ambi-RVOS — эталонный набор данных для референтной видеосегментации с неоднозначными пользовательскими запросами. Обширные эксперименты показывают, что IC-Seg не только с большим отрывом превосходит существующие методы в разрешении неоднозначных запросов, но и сохраняет передовую производительность на стандартных бенчмарках сегментации с рассуждением. Код и данные будут опубликованы по адресу https://github.com/iSEE-Laboratory/IC-Seg.

English

Referring segmentation aims to segment the target objects in images or videos based on the textual query. Despite remarkable progress over the past years, existing works always assume that the user-provided queries are already precise and clear. However, this assumption is impractical. In real-world scenarios, it is unrealistic to expect all users to thoroughly review their visual content and carefully ensure their queries are unique and unambiguous. When encountering such cases, existing segmentation models tend to arbitrarily guess the user preferences, often resulting in undesired outcomes. To address this limitation, we propose IC-Seg, a novel agentic framework that proactively clarifies user intent through multi-turn conversation before segmentation. To effectively incentivize this capability, we further introduce Hi-GRPO, a new hierarchical optimization strategy that injects dense and informative supervision signals at the trajectory, turn, and step levels. This strategy encourages efficient intent clarification, effectively eliminating redundant interactions and improving overall dialogue quality. For evaluation, we establish Ambi-RVOS, a referring video object segmentation benchmark with ambiguous user queries. Extensive experiments demonstrate that IC-Seg not only outperforms existing methods by a large margin in resolving ambiguous queries, but also maintains state-of-the-art performance on standard reasoning segmentation benchmarks. Code and data will be released at https://github.com/iSEE-Laboratory/IC-Seg.