ChatPaper.aiChatPaper

SocialOmni: Avaliação da Interatividade Social Áudio-Visual em Modelos Omni

SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models

March 17, 2026
Autores: Tianyu Xie, Jinfa Huang, Yuexiao Ma, Rongfang Luo, Yan Yang, Wang Chen, Yuhui Zeng, Ruize Fang, Yixuan Zou, Xiawu Zheng, Jiebo Luo, Rongrong Ji
cs.AI

Resumo

Os modelos de linguagem grandes omni-modais (OLMs) redefinem a interação homem-máquina ao integrar nativamente áudio, visão e texto. No entanto, os benchmarks existentes para OLMs permanecem ancorados em tarefas estáticas e centradas em precisão, deixando uma lacuna crítica na avaliação da interatividade social – a capacidade fundamental de navegar por pistas dinâmicas em diálogos naturais. Para isso, propomos o SocialOmni, um benchmark abrangente que operacionaliza a avaliação dessa interatividade conversacional em três dimensões principais: (i) separação e identificação de falantes (quem está falando), (ii) controle do momento de interrupção (quando interromper) e (iii) geração de interrupções naturais (como formular a interrupção). O SocialOmni apresenta 2.000 amostras de percepção e um conjunto diagnóstico de qualidade controlada com 209 instâncias de geração de interação com restrições temporais e contextuais rigorosas, complementado por cenários controlados de inconsistência áudio-visual para testar a robustez dos modelos. Avaliamos 12 OLMs líderes, o que revelou uma variação significativa em suas capacidades de interação social entre os modelos. Além disso, nossa análise revela um desacoplamento pronunciado entre a precisão perceptual de um modelo e sua capacidade de gerar interrupções contextualmente apropriadas, indicando que métricas centradas apenas na compreensão são insuficientes para caracterizar a competência social conversacional. De forma mais encorajadora, esses diagnósticos do SocialOmni produzem sinais acionáveis para preencher a divisão entre percepção e interação em futuros OLMs.
English
Omni-modal large language models (OLMs) redefine human-machine interaction by natively integrating audio, vision, and text. However, existing OLM benchmarks remain anchored to static, accuracy-centric tasks, leaving a critical gap in assessing social interactivity, the fundamental capacity to navigate dynamic cues in natural dialogues. To this end, we propose SocialOmni, a comprehensive benchmark that operationalizes the evaluation of this conversational interactivity across three core dimensions: (i) speaker separation and identification (who is speaking), (ii) interruption timing control (when to interject), and (iii) natural interruption generation (how to phrase the interruption). SocialOmni features 2,000 perception samples and a quality-controlled diagnostic set of 209 interaction-generation instances with strict temporal and contextual constraints, complemented by controlled audio-visual inconsistency scenarios to test model robustness. We benchmarked 12 leading OLMs, which uncovers significant variance in their social-interaction capabilities across models. Furthermore, our analysis reveals a pronounced decoupling between a model's perceptual accuracy and its ability to generate contextually appropriate interruptions, indicating that understanding-centric metrics alone are insufficient to characterize conversational social competence. More encouragingly, these diagnostics from SocialOmni yield actionable signals for bridging the perception-interaction divide in future OLMs.
PDF322March 19, 2026