SocialOmni: Benchmark per la Socialità Audio-Visiva nei Modelli Omni

Abstract

I modelli linguistici multimodali onnicomprensivi (OLM) ridefiniscono l'interazione uomo-macchina integrando nativamente audio, visione e testo. Tuttavia, i benchmark esistenti per gli OLM rimangono ancorati a compiti statici e centrati sull'accuratezza, lasciando un divario critico nella valutazione dell'interattività sociale, ovvero la capacità fondamentale di gestire gli stimoli dinamici nei dialoghi naturali. A tal fine, proponiamo SocialOmni, un benchmark completo che concretizza la valutazione di questa interattività conversazionale lungo tre dimensioni fondamentali: (i) separazione e identificazione del parlante (chi sta parlando), (ii) controllo del tempismo delle interruzioni (quando intervenire) e (iii) generazione di interruzioni naturali (come formulare l'interruzione). SocialOmni include 2.000 campioni percettivi e un set diagnostico di qualità controllata composto da 209 istanze di generazione di interazioni con vincoli temporali e contestuali stringenti, integrato da scenari di inconsistenza audiovisiva controllata per testare la robustezza dei modelli. Abbiamo valutato 12 OLM leader di mercato, rivelando una significativa variabilità nelle loro capacità di interazione sociale tra i diversi modelli. Inoltre, la nostra analisi evidenzia un marcato disaccoppiamento tra l'accuratezza percettiva di un modello e la sua capacità di generare interruzioni contestualmente appropriate, indicando che metriche basate esclusivamente sulla comprensione sono insufficienti per caratterizzare la competenza sociale conversazionale. Più incoraggiante è il fatto che queste diagnosi di SocialOmni forniscono segnali concreti per colmare il divario percezione-interazione nei futuri OLM.

English

Omni-modal large language models (OLMs) redefine human-machine interaction by natively integrating audio, vision, and text. However, existing OLM benchmarks remain anchored to static, accuracy-centric tasks, leaving a critical gap in assessing social interactivity, the fundamental capacity to navigate dynamic cues in natural dialogues. To this end, we propose SocialOmni, a comprehensive benchmark that operationalizes the evaluation of this conversational interactivity across three core dimensions: (i) speaker separation and identification (who is speaking), (ii) interruption timing control (when to interject), and (iii) natural interruption generation (how to phrase the interruption). SocialOmni features 2,000 perception samples and a quality-controlled diagnostic set of 209 interaction-generation instances with strict temporal and contextual constraints, complemented by controlled audio-visual inconsistency scenarios to test model robustness. We benchmarked 12 leading OLMs, which uncovers significant variance in their social-interaction capabilities across models. Furthermore, our analysis reveals a pronounced decoupling between a model's perceptual accuracy and its ability to generate contextually appropriate interruptions, indicating that understanding-centric metrics alone are insufficient to characterize conversational social competence. More encouragingly, these diagnostics from SocialOmni yield actionable signals for bridging the perception-interaction divide in future OLMs.

SocialOmni: Benchmark per la Socialità Audio-Visiva nei Modelli Omni

SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models

Abstract

Support