SocialOmni: Benchmarking audiovisueller sozialer Interaktivität in Omni-Modellen

Zusammenfassung

Omnimonale große Sprachmodelle (OLMs) definieren die Mensch-Maschine-Interaktion neu, indem sie Audio, Vision und Text nativ integrieren. Bestehende OLM-Benchmarks bleiben jedoch auf statische, genauigkeitszentrierte Aufgaben beschränkt, wodurch eine kritische Lücke bei der Bewertung der sozialen Interaktivität – der grundlegenden Fähigkeit, dynamische Hinweise in natürlichen Dialogen zu verarbeiten – besteht. Daher schlagen wir SocialOmni vor, einen umfassenden Benchmark, der die Evaluation dieser konversationellen Interaktivität über drei Kernbereiche operationalisiert: (i) Sprechertrennung und -identifikation (wer spricht), (ii) Unterbrechungszeitpunktsteuerung (wann einzugreifen ist) und (iii) natürliche Unterbrechungsgenerierung (wie die Unterbrechung zu formulieren ist). SocialOmni umfasst 2.000 Wahrnehmungsbeispiele sowie einen qualitätskontrollierten Diagnosesatz mit 209 Interaktionsgenerierungsinstanzen unter strengen zeitlichen und kontextuellen Beschränkungen, ergänzt durch kontrollierte audiovisuelle Inkonsistenzszenarien zur Testung der Modellrobustheit. Wir testeten 12 führende OLMs, was erhebliche Unterschiede in ihren sozialen Interaktionsfähigkeiten zwischen den Modellen aufdeckt. Darüber hinaus zeigt unsere Analyse eine deutliche Entkopplung zwischen der Wahrnehmungsgenauigkeit eines Modells und seiner Fähigkeit, kontextuell angemessene Unterbrechungen zu generieren, was darauf hindeutet, dass verständniszentrierte Metriken allein nicht ausreichen, um konversationelle soziale Kompetenz zu charakterisieren. Ermutigenderweise liefern diese Diagnosen aus SocialOmni handlungsrelevante Signale, um die Wahrnehmungs-Interaktions-Lücke in zukünftigen OLMs zu überbrücken.

English

Omni-modal large language models (OLMs) redefine human-machine interaction by natively integrating audio, vision, and text. However, existing OLM benchmarks remain anchored to static, accuracy-centric tasks, leaving a critical gap in assessing social interactivity, the fundamental capacity to navigate dynamic cues in natural dialogues. To this end, we propose SocialOmni, a comprehensive benchmark that operationalizes the evaluation of this conversational interactivity across three core dimensions: (i) speaker separation and identification (who is speaking), (ii) interruption timing control (when to interject), and (iii) natural interruption generation (how to phrase the interruption). SocialOmni features 2,000 perception samples and a quality-controlled diagnostic set of 209 interaction-generation instances with strict temporal and contextual constraints, complemented by controlled audio-visual inconsistency scenarios to test model robustness. We benchmarked 12 leading OLMs, which uncovers significant variance in their social-interaction capabilities across models. Furthermore, our analysis reveals a pronounced decoupling between a model's perceptual accuracy and its ability to generate contextually appropriate interruptions, indicating that understanding-centric metrics alone are insufficient to characterize conversational social competence. More encouragingly, these diagnostics from SocialOmni yield actionable signals for bridging the perception-interaction divide in future OLMs.

SocialOmni: Benchmarking audiovisueller sozialer Interaktivität in Omni-Modellen

SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models

Zusammenfassung

Support