Ne devinez pas, demandez : Résoudre l'ambiguïté dans la segmentation par référence via une clarification multi-tour

Résumé

Le segmentation par référence vise à segmenter les objets cibles dans des images ou des vidéos en fonction d'une requête textuelle. Malgré des progrès remarquables ces dernières années, les travaux existants partent toujours du principe que les requêtes fournies par l'utilisateur sont déjà précises et claires. Cependant, cette hypothèse est irréaliste. Dans des scénarios réels, il est peu réaliste d'attendre de tous les utilisateurs qu'ils examinent minutieusement leur contenu visuel et veillent soigneusement à ce que leurs requêtes soient uniques et sans ambiguïté. Face à de tels cas, les modèles de segmentation existants ont tendance à deviner arbitrairement les préférences de l'utilisateur, ce qui aboutit souvent à des résultats non souhaités. Pour pallier cette limitation, nous proposons IC-Seg, un nouveau cadre agentique qui clarifie de manière proactive l'intention de l'utilisateur grâce à une conversation à plusieurs tours avant la segmentation. Pour encourager efficacement cette capacité, nous introduisons également Hi-GRPO, une nouvelle stratégie d'optimisation hiérarchique qui injecte des signaux de supervision denses et informatifs aux niveaux de la trajectoire, du tour et de l'étape. Cette stratégie favorise une clarification efficace de l'intention, éliminant efficacement les interactions redondantes et améliorant la qualité globale du dialogue. Pour l'évaluation, nous établissons Ambi-RVOS, un benchmark de segmentation d'objets vidéo par référence avec des requêtes utilisateur ambiguës. Des expériences approfondies démontrent qu'IC-Seg non seulement surpasse largement les méthodes existantes dans la résolution de requêtes ambiguës, mais maintient également des performances de pointe sur les benchmarks standard de segmentation par raisonnement. Le code et les données seront disponibles à l'adresse https://github.com/iSEE-Laboratory/IC-Seg.

English

Referring segmentation aims to segment the target objects in images or videos based on the textual query. Despite remarkable progress over the past years, existing works always assume that the user-provided queries are already precise and clear. However, this assumption is impractical. In real-world scenarios, it is unrealistic to expect all users to thoroughly review their visual content and carefully ensure their queries are unique and unambiguous. When encountering such cases, existing segmentation models tend to arbitrarily guess the user preferences, often resulting in undesired outcomes. To address this limitation, we propose IC-Seg, a novel agentic framework that proactively clarifies user intent through multi-turn conversation before segmentation. To effectively incentivize this capability, we further introduce Hi-GRPO, a new hierarchical optimization strategy that injects dense and informative supervision signals at the trajectory, turn, and step levels. This strategy encourages efficient intent clarification, effectively eliminating redundant interactions and improving overall dialogue quality. For evaluation, we establish Ambi-RVOS, a referring video object segmentation benchmark with ambiguous user queries. Extensive experiments demonstrate that IC-Seg not only outperforms existing methods by a large margin in resolving ambiguous queries, but also maintains state-of-the-art performance on standard reasoning segmentation benchmarks. Code and data will be released at https://github.com/iSEE-Laboratory/IC-Seg.