SocialOmni: Evaluación de la Interactividad Social Audiovisual en Modelos Omni

Resumen

Los grandes modelos lingüísticos omni-modales (OLMs) redefinen la interacción humano-máquina al integrar de forma nativa audio, visión y texto. Sin embargo, los puntos de referencia existentes para OLMs permanecen anclados a tareas estáticas centradas en la precisión, dejando un vacío crítico en la evaluación de la interactividad social, la capacidad fundamental para navegar las señales dinámicas en diálogos naturales. Para ello, proponemos SocialOmni, un punto de referencia integral que operacionaliza la evaluación de esta interactividad conversacional en tres dimensiones principales: (i) separación e identificación del hablante (quién está hablando), (ii) control del momento de la interrupción (cuándo interrumpir) y (iii) generación natural de interrupciones (cómo formular la interrupción). SocialOmni incluye 2.000 muestras de percepción y un conjunto de diagnóstico controlado de 209 instancias de generación de interacciones con restricciones temporales y contextuales estrictas, complementado con escenarios controlados de inconsistencia audiovisual para probar la robustez de los modelos. Evaluamos 12 OLMs líderes, lo que revela una variación significativa en sus capacidades de interacción social entre modelos. Además, nuestro análisis revela un desacoplamiento pronunciado entre la precisión perceptiva de un modelo y su capacidad para generar interrupciones contextualmente apropiadas, lo que indica que las métricas centradas en la comprensión por sí solas son insuficientes para caracterizar la competencia social conversacional. Más alentadoramente, estos diagnósticos de SocialOmni producen señales accionables para cerrar la brecha entre percepción e interacción en futuros OLMs.

English

Omni-modal large language models (OLMs) redefine human-machine interaction by natively integrating audio, vision, and text. However, existing OLM benchmarks remain anchored to static, accuracy-centric tasks, leaving a critical gap in assessing social interactivity, the fundamental capacity to navigate dynamic cues in natural dialogues. To this end, we propose SocialOmni, a comprehensive benchmark that operationalizes the evaluation of this conversational interactivity across three core dimensions: (i) speaker separation and identification (who is speaking), (ii) interruption timing control (when to interject), and (iii) natural interruption generation (how to phrase the interruption). SocialOmni features 2,000 perception samples and a quality-controlled diagnostic set of 209 interaction-generation instances with strict temporal and contextual constraints, complemented by controlled audio-visual inconsistency scenarios to test model robustness. We benchmarked 12 leading OLMs, which uncovers significant variance in their social-interaction capabilities across models. Furthermore, our analysis reveals a pronounced decoupling between a model's perceptual accuracy and its ability to generate contextually appropriate interruptions, indicating that understanding-centric metrics alone are insufficient to characterize conversational social competence. More encouragingly, these diagnostics from SocialOmni yield actionable signals for bridging the perception-interaction divide in future OLMs.

SocialOmni: Evaluación de la Interactividad Social Audiovisual en Modelos Omni

SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models

Resumen

Support