추측하지 말고 질문하라: 다중 턴 명확화를 통한 참조 분할의 모호성 해결
Don't Guess, Just Ask: Resolving Ambiguity in Referring Segmentation via Multi-turn Clarification
May 24, 2026
저자: Yuting Yang, Haichao Jiang, Tianming Liang, Quan Zhang, Jian-Fang Hu
cs.AI
초록
지시적 분할(Referring Segmentation)은 텍스트 질의에 기반하여 이미지나 비디오 내의 대상 객체를 분할하는 것을 목표로 한다. 지난 몇 년간 눈에 띄는 발전이 있었음에도 불구하고, 기존 연구들은 사용자가 제공하는 질의가 이미 정확하고 명확하다고 가정한다. 그러나 이러한 가정은 현실적이지 않다. 실제 시나리오에서는 모든 사용자가 자신의 시각적 콘텐츠를 철저히 검토하고 질의가 고유하고 모호하지 않도록 신중히 작성할 것이라고 기대하는 것은 비현실적이다. 이러한 경우가 발생하면 기존 분할 모델은 사용자의 선호도를 임의로 추측하는 경향이 있으며, 종종 원치 않는 결과를 초래한다. 이러한 한계를 해결하기 위해, 우리는 분할 전에 다중 턴 대화를 통해 사용자의 의도를 능동적으로 명확히 하는 새로운 에이전트 기반 프레임워크인 IC-Seg를 제안한다. 이 능력을 효과적으로 촉진하기 위해, 우리는 궤적, 턴, 단계 수준에서 밀집되고 정보가 풍부한 감독 신호를 주입하는 새로운 계층적 최적화 전략인 Hi-GRPO를 추가로 도입한다. 이 전략은 효율적인 의도 명확화를 장려하여 중복 상호작용을 효과적으로 제거하고 전반적인 대화 품질을 향상시킨다. 평가를 위해, 모호한 사용자 질의를 포함하는 참조 비디오 객체 분할 벤치마크인 Ambi-RVOS를 구축한다. 광범위한 실험을 통해 IC-Seg가 모호한 질의 해결에서 기존 방법을 큰 폭으로 능가할 뿐만 아니라, 표준 추론 분할 벤치마크에서도 최첨단 성능을 유지함을 입증한다. 코드와 데이터는 https://github.com/iSEE-Laboratory/IC-Seg에서 공개될 예정이다.
English
Referring segmentation aims to segment the target objects in images or videos based on the textual query. Despite remarkable progress over the past years, existing works always assume that the user-provided queries are already precise and clear. However, this assumption is impractical. In real-world scenarios, it is unrealistic to expect all users to thoroughly review their visual content and carefully ensure their queries are unique and unambiguous. When encountering such cases, existing segmentation models tend to arbitrarily guess the user preferences, often resulting in undesired outcomes. To address this limitation, we propose IC-Seg, a novel agentic framework that proactively clarifies user intent through multi-turn conversation before segmentation. To effectively incentivize this capability, we further introduce Hi-GRPO, a new hierarchical optimization strategy that injects dense and informative supervision signals at the trajectory, turn, and step levels. This strategy encourages efficient intent clarification, effectively eliminating redundant interactions and improving overall dialogue quality. For evaluation, we establish Ambi-RVOS, a referring video object segmentation benchmark with ambiguous user queries. Extensive experiments demonstrate that IC-Seg not only outperforms existing methods by a large margin in resolving ambiguous queries, but also maintains state-of-the-art performance on standard reasoning segmentation benchmarks. Code and data will be released at https://github.com/iSEE-Laboratory/IC-Seg.