ChatPaper.aiChatPaper

推測せず、尋ねよ:マルチターンの明確化による指示セグメンテーションにおける曖昧性の解消

Don't Guess, Just Ask: Resolving Ambiguity in Referring Segmentation via Multi-turn Clarification

May 24, 2026
著者: Yuting Yang, Haichao Jiang, Tianming Liang, Quan Zhang, Jian-Fang Hu
cs.AI

要旨

参照セグメンテーションは、テキストクエリに基づいて画像や動画内の対象物体をセグメント化することを目的とする。過去数年間で顕著な進展が見られたものの、既存の研究は常にユーザが提供するクエリが既に正確かつ明確であると仮定している。しかし、この仮定は非現実的である。実世界のシナリオでは、すべてのユーザが自身の視覚コンテンツを徹底的に確認し、クエリが一意で曖昧さを含まないように慎重に作成することを期待するのは現実的ではない。このようなケースに直面した際、既存のセグメンテーションモデルはユーザの好みを恣意的に推測する傾向があり、しばしば望ましくない結果をもたらす。この制限に対処するため、我々はIC-Segを提案する。これはセグメンテーション前に多ターン対話を通じてユーザの意図を積極的に明確化する新たなエージェントフレームワークである。この能力を効果的に促進するために、我々はさらにHi-GRPOを導入する。これは軌跡、ターン、ステップの各レベルで高密度かつ情報豊富な教師信号を注入する新たな階層的最適化戦略である。この戦略により、効率的な意図明確化が促進され、冗長な対話が効果的に排除され、全体的な対話品質が向上する。評価のため、曖昧なユーザクエリを伴う参照動画物体セグメンテーションベンチマークであるAmbi-RVOSを構築した。広範な実験により、IC-Segは曖昧なクエリの解決において既存手法を大幅に上回るだけでなく、標準的な推論セグメンテーションベンチマークにおいても最先端の性能を維持することが示された。コードとデータはhttps://github.com/iSEE-Laboratory/IC-Segで公開予定である。
English
Referring segmentation aims to segment the target objects in images or videos based on the textual query. Despite remarkable progress over the past years, existing works always assume that the user-provided queries are already precise and clear. However, this assumption is impractical. In real-world scenarios, it is unrealistic to expect all users to thoroughly review their visual content and carefully ensure their queries are unique and unambiguous. When encountering such cases, existing segmentation models tend to arbitrarily guess the user preferences, often resulting in undesired outcomes. To address this limitation, we propose IC-Seg, a novel agentic framework that proactively clarifies user intent through multi-turn conversation before segmentation. To effectively incentivize this capability, we further introduce Hi-GRPO, a new hierarchical optimization strategy that injects dense and informative supervision signals at the trajectory, turn, and step levels. This strategy encourages efficient intent clarification, effectively eliminating redundant interactions and improving overall dialogue quality. For evaluation, we establish Ambi-RVOS, a referring video object segmentation benchmark with ambiguous user queries. Extensive experiments demonstrate that IC-Seg not only outperforms existing methods by a large margin in resolving ambiguous queries, but also maintains state-of-the-art performance on standard reasoning segmentation benchmarks. Code and data will be released at https://github.com/iSEE-Laboratory/IC-Seg.