Niet raden, maar vragen: Ambiguïteit oplossen in verwijzende segmentatie via multi-turn verduidelijking

Samenvatting

Referentiële segmentatie is gericht op het segmenteren van doelobjecten in afbeeldingen of video's op basis van een tekstuele zoekopdracht. Hoewel er de afgelopen jaren opmerkelijke vooruitgang is geboekt, gaan bestaande werken er altijd van uit dat de door de gebruiker verstrekte zoekopdrachten al precies en duidelijk zijn. Deze aanname is echter onpraktisch. In realistische scenario's is het onrealistisch te verwachten dat alle gebruikers hun visuele inhoud grondig bekijken en er zorgvuldig voor zorgen dat hun zoekopdrachten uniek en ondubbelzinnig zijn. Wanneer dergelijke gevallen zich voordoen, hebben bestaande segmentatiemodellen de neiging om willekeurig de voorkeuren van de gebruiker te raden, wat vaak leidt tot ongewenste resultaten. Om deze beperking aan te pakken, introduceren wij IC-Seg, een nieuw agentisch raamwerk dat proactief de bedoeling van de gebruiker verduidelijkt via meerdere gespreksronden vóór de segmentatie. Om deze capaciteit effectief te stimuleren, introduceren wij verder Hi-GRPO, een nieuwe hiërarchische optimalisatiestrategie die dichte en informatieve supervisiesignalen injecteert op traject-, beurt- en stapsniveau. Deze strategie bevordert efficiënte intentieverduidelijking, elimineert overbodige interacties en verbetert de algehele gesprekskwaliteit. Voor evaluatie stellen wij Ambi-RVOS op, een referentiële videosegmentatiebenchmark met dubbelzinnige gebruikerszoekopdrachten. Uitgebreide experimenten tonen aan dat IC-Seg niet alleen bestaande methoden met een ruime marge overtreft in het oplossen van dubbelzinnige zoekopdrachten, maar ook state-of-the-art prestaties handhaaft op standaard redeneersegmentatiebenchmarks. Code en gegevens worden beschikbaar gesteld op https://github.com/iSEE-Laboratory/IC-Seg.

English

Referring segmentation aims to segment the target objects in images or videos based on the textual query. Despite remarkable progress over the past years, existing works always assume that the user-provided queries are already precise and clear. However, this assumption is impractical. In real-world scenarios, it is unrealistic to expect all users to thoroughly review their visual content and carefully ensure their queries are unique and unambiguous. When encountering such cases, existing segmentation models tend to arbitrarily guess the user preferences, often resulting in undesired outcomes. To address this limitation, we propose IC-Seg, a novel agentic framework that proactively clarifies user intent through multi-turn conversation before segmentation. To effectively incentivize this capability, we further introduce Hi-GRPO, a new hierarchical optimization strategy that injects dense and informative supervision signals at the trajectory, turn, and step levels. This strategy encourages efficient intent clarification, effectively eliminating redundant interactions and improving overall dialogue quality. For evaluation, we establish Ambi-RVOS, a referring video object segmentation benchmark with ambiguous user queries. Extensive experiments demonstrate that IC-Seg not only outperforms existing methods by a large margin in resolving ambiguous queries, but also maintains state-of-the-art performance on standard reasoning segmentation benchmarks. Code and data will be released at https://github.com/iSEE-Laboratory/IC-Seg.