SocialOmni : Évaluation comparative de l'interactivité sociale audio-visuelle dans les modèles omni

Résumé

Les modèles linguistiques omnimodaux (MLO) redéfinissent l'interaction homme-machine en intégrant nativement l'audio, la vision et le texte. Cependant, les benchmarks existants pour les MLO restent ancrés dans des tâches statiques axées sur la précision, laissant un vide critique dans l'évaluation de l'interactivité sociale, capacité fondamentale à naviguer les indices dynamiques dans les dialogues naturels. Pour combler cette lacune, nous proposons SocialOmni, un benchmark complet qui opérationnalise l'évaluation de cette interactivité conversationnelle selon trois dimensions clés : (i) la séparation et l'identification des locuteurs (qui parle), (ii) le contrôle du moment d'interruption (quand intervenir), et (iii) la génération d'interruptions naturelles (comment formuler l'interruption). SocialOmni comprend 2 000 échantillons de perception et un ensemble diagnostique de 209 instances de génération d'interaction, contrôlé qualitativement avec des contraintes temporelles et contextuelles strictes, le tout étant complété par des scénarios d'incohérence audio-visuelle contrôlés pour tester la robustesse des modèles. Nous avons évalué 12 MLO leaders, ce qui révèle une variance significative de leurs capacités d'interaction sociale selon les modèles. De plus, notre analyse met en évidence un découplage prononcé entre la précision perceptuelle d'un modèle et sa capacité à générer des interruptions contextuellement appropriées, indiquant que les métriques centrées sur la compréhension seule sont insuffisantes pour caractériser la compétence sociale conversationnelle. Plus encourageant encore, ces diagnostics issus de SocialOmni produisent des signaux actionnables pour combler le fossé perception-interaction dans les futurs MLO.

English

Omni-modal large language models (OLMs) redefine human-machine interaction by natively integrating audio, vision, and text. However, existing OLM benchmarks remain anchored to static, accuracy-centric tasks, leaving a critical gap in assessing social interactivity, the fundamental capacity to navigate dynamic cues in natural dialogues. To this end, we propose SocialOmni, a comprehensive benchmark that operationalizes the evaluation of this conversational interactivity across three core dimensions: (i) speaker separation and identification (who is speaking), (ii) interruption timing control (when to interject), and (iii) natural interruption generation (how to phrase the interruption). SocialOmni features 2,000 perception samples and a quality-controlled diagnostic set of 209 interaction-generation instances with strict temporal and contextual constraints, complemented by controlled audio-visual inconsistency scenarios to test model robustness. We benchmarked 12 leading OLMs, which uncovers significant variance in their social-interaction capabilities across models. Furthermore, our analysis reveals a pronounced decoupling between a model's perceptual accuracy and its ability to generate contextually appropriate interruptions, indicating that understanding-centric metrics alone are insufficient to characterize conversational social competence. More encouragingly, these diagnostics from SocialOmni yield actionable signals for bridging the perception-interaction divide in future OLMs.

SocialOmni : Évaluation comparative de l'interactivité sociale audio-visuelle dans les modèles omni

SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models

Résumé

Support