SocialOmni: Бенчмаркинг аудиовизуальной социальной интерактивности в Omni-моделях

Аннотация

Омнимодальные большие языковые модели (ОБЯМ) переопределяют взаимодействие человека и машины за счет нативной интеграции аудио, видео и текста. Однако существующие бенчмарки ОБЯМ остаются привязанными к статичным, ориентированным на точность задачам, оставляя критический пробел в оценке социальной интерактивности — фундаментальной способности ориентироваться в динамических сигналах естественных диалогов. Для решения этой проблемы мы предлагаем SocialOmni, комплексный бенчмарк, который операционализирует оценку этой диалоговой интерактивности по трем основным направлениям: (i) разделение и идентификация говорящих (кто говорит), (ii) управление временем вмешательства (когда вступить в разговор) и (iii) генерация естественных вмешательств (как сформулировать реплику). SocialOmni включает 2000 перцептивных примеров и контролируемый диагностический набор из 209 инстансов генерации взаимодействий со строгими временными и контекстными ограничениями, дополненный сценариями контролируемой аудиовизуальной противоречивости для проверки устойчивости моделей. Мы протестировали 12 ведущих ОБЯМ, что выявило значительный разброс в их способностях к социальному взаимодействию. Более того, наш анализ показывает выраженное расхождение между перцептивной точностью модели и ее способностью генерировать контекстуально уместные вмешательства, указывая на то, что метрики, ориентированные только на понимание, недостаточны для характеристики социальной компетентности в диалоге. Что более обнадеживает, эта диагностика с помощью SocialOmni дает практические сигналы для преодоления разрыва между восприятием и взаимодействием в будущих ОБЯМ.

English

Omni-modal large language models (OLMs) redefine human-machine interaction by natively integrating audio, vision, and text. However, existing OLM benchmarks remain anchored to static, accuracy-centric tasks, leaving a critical gap in assessing social interactivity, the fundamental capacity to navigate dynamic cues in natural dialogues. To this end, we propose SocialOmni, a comprehensive benchmark that operationalizes the evaluation of this conversational interactivity across three core dimensions: (i) speaker separation and identification (who is speaking), (ii) interruption timing control (when to interject), and (iii) natural interruption generation (how to phrase the interruption). SocialOmni features 2,000 perception samples and a quality-controlled diagnostic set of 209 interaction-generation instances with strict temporal and contextual constraints, complemented by controlled audio-visual inconsistency scenarios to test model robustness. We benchmarked 12 leading OLMs, which uncovers significant variance in their social-interaction capabilities across models. Furthermore, our analysis reveals a pronounced decoupling between a model's perceptual accuracy and its ability to generate contextually appropriate interruptions, indicating that understanding-centric metrics alone are insufficient to characterize conversational social competence. More encouragingly, these diagnostics from SocialOmni yield actionable signals for bridging the perception-interaction divide in future OLMs.

SocialOmni: Бенчмаркинг аудиовизуальной социальной интерактивности в Omni-моделях

SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models

Аннотация

Support