Não Adivinhe, Apenas Pergunte: Resolvendo Ambiguidade na Segmentação Referencial por meio de Esclarecimento em Múltiplas Interações

Resumo

A segmentação referencial tem como objetivo segmentar os objetos-alvo em imagens ou vídeos com base em uma consulta textual. Apesar do notável progresso nos últimos anos, trabalhos existentes sempre assumem que as consultas fornecidas pelo usuário já são precisas e claras. No entanto, essa suposição é impraticável. Em cenários do mundo real, é irrealista esperar que todos os usuários revisem minuciosamente seu conteúdo visual e garantam cuidadosamente que suas consultas sejam únicas e inequívocas. Ao se deparar com tais casos, os modelos de segmentação existentes tendem a adivinhar arbitrariamente as preferências do usuário, frequentemente resultando em resultados indesejados. Para abordar essa limitação, propomos o IC-Seg, uma nova estrutura agêntica que esclarece proativamente a intenção do usuário por meio de conversas de múltiplas rodadas antes da segmentação. Para incentivar efetivamente essa capacidade, introduzimos ainda o Hi-GRPO, uma nova estratégia de otimização hierárquica que injeta sinais de supervisão densos e informativos nos níveis de trajetória, rodada e etapa. Essa estratégia incentiva o esclarecimento eficiente da intenção, eliminando efetivamente interações redundantes e melhorando a qualidade geral do diálogo. Para avaliação, estabelecemos o Ambi-RVOS, um benchmark de segmentação referencial de objetos em vídeo com consultas ambíguas de usuários. Experimentos extensivos demonstram que o IC-Seg não apenas supera os métodos existentes por uma margem significativa na resolução de consultas ambíguas, mas também mantém desempenho de estado da arte em benchmarks padrão de segmentação por raciocínio. O código e os dados serão disponibilizados em https://github.com/iSEE-Laboratory/IC-Seg.

English

Referring segmentation aims to segment the target objects in images or videos based on the textual query. Despite remarkable progress over the past years, existing works always assume that the user-provided queries are already precise and clear. However, this assumption is impractical. In real-world scenarios, it is unrealistic to expect all users to thoroughly review their visual content and carefully ensure their queries are unique and unambiguous. When encountering such cases, existing segmentation models tend to arbitrarily guess the user preferences, often resulting in undesired outcomes. To address this limitation, we propose IC-Seg, a novel agentic framework that proactively clarifies user intent through multi-turn conversation before segmentation. To effectively incentivize this capability, we further introduce Hi-GRPO, a new hierarchical optimization strategy that injects dense and informative supervision signals at the trajectory, turn, and step levels. This strategy encourages efficient intent clarification, effectively eliminating redundant interactions and improving overall dialogue quality. For evaluation, we establish Ambi-RVOS, a referring video object segmentation benchmark with ambiguous user queries. Extensive experiments demonstrate that IC-Seg not only outperforms existing methods by a large margin in resolving ambiguous queries, but also maintains state-of-the-art performance on standard reasoning segmentation benchmarks. Code and data will be released at https://github.com/iSEE-Laboratory/IC-Seg.