Segmentazione Multimodale con Riferimento: Una Rassegna
Multimodal Referring Segmentation: A Survey
August 1, 2025
Autori: Henghui Ding, Song Tang, Shuting He, Chang Liu, Zuxuan Wu, Yu-Gang Jiang
cs.AI
Abstract
La segmentazione multimodale basata su riferimenti mira a segmentare oggetti target in scene visive, come immagini, video e scene 3D, basandosi su espressioni di riferimento in formato testuale o audio. Questo compito svolge un ruolo cruciale nelle applicazioni pratiche che richiedono una percezione accurata degli oggetti in base alle istruzioni dell'utente. Nell'ultimo decennio, ha attirato una significativa attenzione nella comunità multimodale, grazie ai progressi nelle reti neurali convoluzionali, nei transformer e nei modelli linguistici di grandi dimensioni, che hanno notevolmente migliorato le capacità di percezione multimodale. Questo articolo fornisce una rassegna completa della segmentazione multimodale basata su riferimenti. Iniziamo introducendo il contesto di questo campo, incluse le definizioni del problema e i dataset comunemente utilizzati. Successivamente, riassumiamo una meta-architettura unificata per la segmentazione basata su riferimenti e rivediamo i metodi rappresentativi in tre principali tipi di scene visive, tra cui immagini, video e scene 3D. Discutiamo inoltre i metodi di Espressione di Riferimento Generalizzata (GREx) per affrontare le sfide della complessità del mondo reale, insieme a compiti correlati e applicazioni pratiche. Vengono inoltre forniti ampi confronti delle prestazioni su benchmark standard. Monitoriamo continuamente i lavori correlati su https://github.com/henghuiding/Awesome-Multimodal-Referring-Segmentation.
English
Multimodal referring segmentation aims to segment target objects in visual
scenes, such as images, videos, and 3D scenes, based on referring expressions
in text or audio format. This task plays a crucial role in practical
applications requiring accurate object perception based on user instructions.
Over the past decade, it has gained significant attention in the multimodal
community, driven by advances in convolutional neural networks, transformers,
and large language models, all of which have substantially improved multimodal
perception capabilities. This paper provides a comprehensive survey of
multimodal referring segmentation. We begin by introducing this field's
background, including problem definitions and commonly used datasets. Next, we
summarize a unified meta architecture for referring segmentation and review
representative methods across three primary visual scenes, including images,
videos, and 3D scenes. We further discuss Generalized Referring Expression
(GREx) methods to address the challenges of real-world complexity, along with
related tasks and practical applications. Extensive performance comparisons on
standard benchmarks are also provided. We continually track related works at
https://github.com/henghuiding/Awesome-Multimodal-Referring-Segmentation.