ChatPaper.aiChatPaper

Hacia Expresiones y Razonamiento Omnimodales en la Segmentación Audiovisual Referencial

Towards Omnimodal Expressions and Reasoning in Referring Audio-Visual Segmentation

July 30, 2025
Autores: Kaining Ying, Henghui Ding, Guanquan Jie, Yu-Gang Jiang
cs.AI

Resumen

La segmentación audiovisual referencial (RAVS, por sus siglas en inglés) ha experimentado avances significativos recientemente, aunque persisten desafíos en la integración de información multimodal y en la comprensión y razonamiento profundo sobre el contenido audiovisual. Para extender los límites de la RAVS y facilitar futuras investigaciones en este campo, proponemos Omnimodal Referring Audio-Visual Segmentation (OmniAVS), un nuevo conjunto de datos que contiene 2,098 videos y 59,458 expresiones referenciales multimodales. OmniAVS se destaca por tres innovaciones clave: (1) 8 tipos de expresiones multimodales que combinan de manera flexible texto, habla, sonido y señales visuales; (2) un énfasis en la comprensión del contenido auditivo más allá de la mera detección de su presencia; y (3) la inclusión de razonamiento complejo y conocimiento del mundo en las expresiones. Además, presentamos Omnimodal Instructed Segmentation Assistant (OISA), para abordar los desafíos del razonamiento multimodal y la comprensión detallada del contenido audiovisual en OmniAVS. OISA utiliza MLLM para comprender señales complejas y realizar segmentación basada en razonamiento. Experimentos exhaustivos demuestran que OISA supera a los métodos existentes en OmniAVS y logra resultados competitivos en otras tareas relacionadas.
English
Referring audio-visual segmentation (RAVS) has recently seen significant advancements, yet challenges remain in integrating multimodal information and deeply understanding and reasoning about audiovisual content. To extend the boundaries of RAVS and facilitate future research in this field, we propose Omnimodal Referring Audio-Visual Segmentation (OmniAVS), a new dataset containing 2,098 videos and 59,458 multimodal referring expressions. OmniAVS stands out with three key innovations: (1) 8 types of multimodal expressions that flexibly combine text, speech, sound, and visual cues; (2) an emphasis on understanding audio content beyond just detecting their presence; and (3) the inclusion of complex reasoning and world knowledge in expressions. Furthermore, we introduce Omnimodal Instructed Segmentation Assistant (OISA), to address the challenges of multimodal reasoning and fine-grained understanding of audiovisual content in OmniAVS. OISA uses MLLM to comprehend complex cues and perform reasoning-based segmentation. Extensive experiments show that OISA outperforms existing methods on OmniAVS and achieves competitive results on other related tasks.
PDF82July 31, 2025