SocialOmni: Avaliação da Interatividade Social Áudio-Visual em Modelos Omni

Resumo

Os modelos de linguagem grandes omni-modais (OLMs) redefinem a interação homem-máquina ao integrar nativamente áudio, visão e texto. No entanto, os benchmarks existentes para OLMs permanecem ancorados em tarefas estáticas e centradas em precisão, deixando uma lacuna crítica na avaliação da interatividade social – a capacidade fundamental de navegar por pistas dinâmicas em diálogos naturais. Para isso, propomos o SocialOmni, um benchmark abrangente que operacionaliza a avaliação dessa interatividade conversacional em três dimensões principais: (i) separação e identificação de falantes (quem está falando), (ii) controle do momento de interrupção (quando interromper) e (iii) geração de interrupções naturais (como formular a interrupção). O SocialOmni apresenta 2.000 amostras de percepção e um conjunto diagnóstico de qualidade controlada com 209 instâncias de geração de interação com restrições temporais e contextuais rigorosas, complementado por cenários controlados de inconsistência áudio-visual para testar a robustez dos modelos. Avaliamos 12 OLMs líderes, o que revelou uma variação significativa em suas capacidades de interação social entre os modelos. Além disso, nossa análise revela um desacoplamento pronunciado entre a precisão perceptual de um modelo e sua capacidade de gerar interrupções contextualmente apropriadas, indicando que métricas centradas apenas na compreensão são insuficientes para caracterizar a competência social conversacional. De forma mais encorajadora, esses diagnósticos do SocialOmni produzem sinais acionáveis para preencher a divisão entre percepção e interação em futuros OLMs.

English

Omni-modal large language models (OLMs) redefine human-machine interaction by natively integrating audio, vision, and text. However, existing OLM benchmarks remain anchored to static, accuracy-centric tasks, leaving a critical gap in assessing social interactivity, the fundamental capacity to navigate dynamic cues in natural dialogues. To this end, we propose SocialOmni, a comprehensive benchmark that operationalizes the evaluation of this conversational interactivity across three core dimensions: (i) speaker separation and identification (who is speaking), (ii) interruption timing control (when to interject), and (iii) natural interruption generation (how to phrase the interruption). SocialOmni features 2,000 perception samples and a quality-controlled diagnostic set of 209 interaction-generation instances with strict temporal and contextual constraints, complemented by controlled audio-visual inconsistency scenarios to test model robustness. We benchmarked 12 leading OLMs, which uncovers significant variance in their social-interaction capabilities across models. Furthermore, our analysis reveals a pronounced decoupling between a model's perceptual accuracy and its ability to generate contextually appropriate interruptions, indicating that understanding-centric metrics alone are insufficient to characterize conversational social competence. More encouragingly, these diagnostics from SocialOmni yield actionable signals for bridging the perception-interaction divide in future OLMs.

SocialOmni: Avaliação da Interatividade Social Áudio-Visual em Modelos Omni

SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models

Resumo

Support