Raten Sie nicht, fragen Sie einfach: Auflösung von Mehrdeutigkeiten in der referenzierenden Segmentierung durch mehrstufige Klärung

Zusammenfassung

Referierende Segmentation (Referring Segmentation) zielt darauf ab, Zielobjekte in Bildern oder Videos basierend auf einer textuellen Abfrage zu segmentieren. Trotz bemerkenswerter Fortschritte in den letzten Jahren gehen bestehende Arbeiten stets davon aus, dass die vom Nutzer bereitgestellten Abfragen bereits präzise und eindeutig sind. Diese Annahme ist jedoch unrealistisch. In realen Szenarien ist es nicht zu erwarten, dass alle Nutzer ihre visuellen Inhalte gründlich prüfen und sicherstellen, dass ihre Abfragen eindeutig sind. In solchen Fällen neigen bestehende Segmentierungsmodelle dazu, willkürlich die Präferenzen der Nutzer zu erraten, was häufig zu unerwünschten Ergebnissen führt. Um diese Einschränkung zu beheben, schlagen wir IC-Seg vor, ein neuartiges agentenbasiertes Framework, das durch mehrrundige Gespräche proaktiv die Absicht des Nutzers klärt, bevor die Segmentierung erfolgt. Um diese Fähigkeit effektiv zu fördern, führen wir zudem Hi-GRPO ein, eine neue hierarchische Optimierungsstrategie, die dichte und informative Überwachungssignale auf Trajektorien-, Runden- und Schrittebene einbringt. Diese Strategie fördert eine effiziente Absichtsklärung, eliminiert effektiv redundante Interaktionen und verbessert die gesamte Dialogqualität. Zur Evaluierung etablieren wir Ambi-RVOS, einen Referenzierungs-Benchmark für die Videobjektsegmentierung mit mehrdeutigen Benutzeranfragen. Umfangreiche Experimente zeigen, dass IC-Seg nicht nur bestehende Methoden bei der Auflösung mehrdeutiger Abfragen deutlich übertrifft, sondern auch auf Standard-Benchmarks für Reasoning-Segmentierung state-of-the-art Ergebnisse erzielt. Code und Daten werden unter https://github.com/iSEE-Laboratory/IC-Seg veröffentlicht.

English

Referring segmentation aims to segment the target objects in images or videos based on the textual query. Despite remarkable progress over the past years, existing works always assume that the user-provided queries are already precise and clear. However, this assumption is impractical. In real-world scenarios, it is unrealistic to expect all users to thoroughly review their visual content and carefully ensure their queries are unique and unambiguous. When encountering such cases, existing segmentation models tend to arbitrarily guess the user preferences, often resulting in undesired outcomes. To address this limitation, we propose IC-Seg, a novel agentic framework that proactively clarifies user intent through multi-turn conversation before segmentation. To effectively incentivize this capability, we further introduce Hi-GRPO, a new hierarchical optimization strategy that injects dense and informative supervision signals at the trajectory, turn, and step levels. This strategy encourages efficient intent clarification, effectively eliminating redundant interactions and improving overall dialogue quality. For evaluation, we establish Ambi-RVOS, a referring video object segmentation benchmark with ambiguous user queries. Extensive experiments demonstrate that IC-Seg not only outperforms existing methods by a large margin in resolving ambiguous queries, but also maintains state-of-the-art performance on standard reasoning segmentation benchmarks. Code and data will be released at https://github.com/iSEE-Laboratory/IC-Seg.