Segmentación de Referencia Multimodal: Una Revisión
Multimodal Referring Segmentation: A Survey
August 1, 2025
Autores: Henghui Ding, Song Tang, Shuting He, Chang Liu, Zuxuan Wu, Yu-Gang Jiang
cs.AI
Resumen
La segmentación referencial multimodal tiene como objetivo segmentar objetos objetivo en escenas visuales, como imágenes, videos y escenas 3D, basándose en expresiones referenciales en formato de texto o audio. Esta tarea desempeña un papel crucial en aplicaciones prácticas que requieren una percepción precisa de objetos basada en instrucciones del usuario. Durante la última década, ha ganado una atención significativa en la comunidad multimodal, impulsada por avances en redes neuronales convolucionales, transformadores y modelos de lenguaje de gran escala, todos los cuales han mejorado sustancialmente las capacidades de percepción multimodal. Este artículo proporciona una revisión exhaustiva de la segmentación referencial multimodal. Comenzamos presentando los antecedentes de este campo, incluyendo definiciones del problema y conjuntos de datos comúnmente utilizados. A continuación, resumimos una metaarquitectura unificada para la segmentación referencial y revisamos métodos representativos en tres escenas visuales principales: imágenes, videos y escenas 3D. Además, discutimos los métodos de Expresión Referencial Generalizada (GREx) para abordar los desafíos de la complejidad del mundo real, junto con tareas relacionadas y aplicaciones prácticas. También se proporcionan comparaciones extensas de rendimiento en puntos de referencia estándar. Realizamos un seguimiento continuo de trabajos relacionados en https://github.com/henghuiding/Awesome-Multimodal-Referring-Segmentation.
English
Multimodal referring segmentation aims to segment target objects in visual
scenes, such as images, videos, and 3D scenes, based on referring expressions
in text or audio format. This task plays a crucial role in practical
applications requiring accurate object perception based on user instructions.
Over the past decade, it has gained significant attention in the multimodal
community, driven by advances in convolutional neural networks, transformers,
and large language models, all of which have substantially improved multimodal
perception capabilities. This paper provides a comprehensive survey of
multimodal referring segmentation. We begin by introducing this field's
background, including problem definitions and commonly used datasets. Next, we
summarize a unified meta architecture for referring segmentation and review
representative methods across three primary visual scenes, including images,
videos, and 3D scenes. We further discuss Generalized Referring Expression
(GREx) methods to address the challenges of real-world complexity, along with
related tasks and practical applications. Extensive performance comparisons on
standard benchmarks are also provided. We continually track related works at
https://github.com/henghuiding/Awesome-Multimodal-Referring-Segmentation.