No adivines, solo pregunta: Resolviendo la ambigüedad en la segmentación referencial mediante aclaración en múltiples turnos

Resumen

La segmentación por referencia tiene como objetivo segmentar los objetos objetivo en imágenes o videos basándose en una consulta textual. A pesar del notable progreso en los últimos años, los trabajos existentes siempre asumen que las consultas proporcionadas por el usuario ya son precisas y claras. Sin embargo, esta suposición no es práctica. En escenarios del mundo real, no es realista esperar que todos los usuarios revisen a fondo su contenido visual y se aseguren cuidadosamente de que sus consultas sean únicas y sin ambigüedades. Al enfrentarse a tales casos, los modelos de segmentación existentes tienden a adivinar arbitrariamente las preferencias del usuario, a menudo dando lugar a resultados no deseados. Para abordar esta limitación, proponemos IC-Seg, un novedoso marco agéntico que aclara proactivamente la intención del usuario a través de conversaciones de múltiples turnos antes de la segmentación. Para incentivar eficazmente esta capacidad, introducimos además Hi-GRPO, una nueva estrategia de optimización jerárquica que inyecta señales de supervisión densas e informativas a nivel de trayectoria, turno y paso. Esta estrategia fomenta una clarificación eficiente de la intención, eliminando efectivamente las interacciones redundantes y mejorando la calidad general del diálogo. Para la evaluación, establecemos Ambi-RVOS, un punto de referencia de segmentación de objetos en video por referencia con consultas de usuario ambiguas. Experimentos exhaustivos demuestran que IC-Seg no solo supera a los métodos existentes por un amplio margen en la resolución de consultas ambiguas, sino que también mantiene un rendimiento de vanguardia en los puntos de referencia estándar de segmentación por razonamiento. El código y los datos se publicarán en https://github.com/iSEE-Laboratory/IC-Seg.

English

Referring segmentation aims to segment the target objects in images or videos based on the textual query. Despite remarkable progress over the past years, existing works always assume that the user-provided queries are already precise and clear. However, this assumption is impractical. In real-world scenarios, it is unrealistic to expect all users to thoroughly review their visual content and carefully ensure their queries are unique and unambiguous. When encountering such cases, existing segmentation models tend to arbitrarily guess the user preferences, often resulting in undesired outcomes. To address this limitation, we propose IC-Seg, a novel agentic framework that proactively clarifies user intent through multi-turn conversation before segmentation. To effectively incentivize this capability, we further introduce Hi-GRPO, a new hierarchical optimization strategy that injects dense and informative supervision signals at the trajectory, turn, and step levels. This strategy encourages efficient intent clarification, effectively eliminating redundant interactions and improving overall dialogue quality. For evaluation, we establish Ambi-RVOS, a referring video object segmentation benchmark with ambiguous user queries. Extensive experiments demonstrate that IC-Seg not only outperforms existing methods by a large margin in resolving ambiguous queries, but also maintains state-of-the-art performance on standard reasoning segmentation benchmarks. Code and data will be released at https://github.com/iSEE-Laboratory/IC-Seg.