SocialOmni: Бенчмаркинг аудиовизуальной социальной интерактивности в Omni-моделях
SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models
March 17, 2026
Авторы: Tianyu Xie, Jinfa Huang, Yuexiao Ma, Rongfang Luo, Yan Yang, Wang Chen, Yuhui Zeng, Ruize Fang, Yixuan Zou, Xiawu Zheng, Jiebo Luo, Rongrong Ji
cs.AI
Аннотация
Омнимодальные большие языковые модели (ОБЯМ) переопределяют взаимодействие человека и машины за счет нативной интеграции аудио, видео и текста. Однако существующие бенчмарки ОБЯМ остаются привязанными к статичным, ориентированным на точность задачам, оставляя критический пробел в оценке социальной интерактивности — фундаментальной способности ориентироваться в динамических сигналах естественных диалогов. Для решения этой проблемы мы предлагаем SocialOmni, комплексный бенчмарк, который операционализирует оценку этой диалоговой интерактивности по трем основным направлениям: (i) разделение и идентификация говорящих (кто говорит), (ii) управление временем вмешательства (когда вступить в разговор) и (iii) генерация естественных вмешательств (как сформулировать реплику). SocialOmni включает 2000 перцептивных примеров и контролируемый диагностический набор из 209 инстансов генерации взаимодействий со строгими временными и контекстными ограничениями, дополненный сценариями контролируемой аудиовизуальной противоречивости для проверки устойчивости моделей. Мы протестировали 12 ведущих ОБЯМ, что выявило значительный разброс в их способностях к социальному взаимодействию. Более того, наш анализ показывает выраженное расхождение между перцептивной точностью модели и ее способностью генерировать контекстуально уместные вмешательства, указывая на то, что метрики, ориентированные только на понимание, недостаточны для характеристики социальной компетентности в диалоге. Что более обнадеживает, эта диагностика с помощью SocialOmni дает практические сигналы для преодоления разрыва между восприятием и взаимодействием в будущих ОБЯМ.
English
Omni-modal large language models (OLMs) redefine human-machine interaction by natively integrating audio, vision, and text. However, existing OLM benchmarks remain anchored to static, accuracy-centric tasks, leaving a critical gap in assessing social interactivity, the fundamental capacity to navigate dynamic cues in natural dialogues. To this end, we propose SocialOmni, a comprehensive benchmark that operationalizes the evaluation of this conversational interactivity across three core dimensions: (i) speaker separation and identification (who is speaking), (ii) interruption timing control (when to interject), and (iii) natural interruption generation (how to phrase the interruption). SocialOmni features 2,000 perception samples and a quality-controlled diagnostic set of 209 interaction-generation instances with strict temporal and contextual constraints, complemented by controlled audio-visual inconsistency scenarios to test model robustness. We benchmarked 12 leading OLMs, which uncovers significant variance in their social-interaction capabilities across models. Furthermore, our analysis reveals a pronounced decoupling between a model's perceptual accuracy and its ability to generate contextually appropriate interruptions, indicating that understanding-centric metrics alone are insufficient to characterize conversational social competence. More encouragingly, these diagnostics from SocialOmni yield actionable signals for bridging the perception-interaction divide in future OLMs.