Omni-DuplexEval: Evaluación de la interacción omnimodal dúplex en tiempo real

Resumen

La interacción dúplex en tiempo real es esencial para los sistemas multimodales de IA que operan en escenarios del mundo real, donde los modelos deben procesar continuamente flujos de entrada y responder en los momentos adecuados. Sin embargo, la mayoría de los modelos de lenguaje grandes multimodales (MLLMs) existentes se evalúan en entornos fuera de línea, donde se procesa la totalidad del video de entrada antes de generar cualquier respuesta. Aunque investigaciones recientes han comenzado a explorar MLLMs dúplex en tiempo real, aún no existe un punto de referencia integral ni un método de evaluación automática para este entorno. Para abordar esta carencia, proponemos Omni-DuplexEval, un punto de referencia para evaluar sistemáticamente la interacción dúplex en tiempo real. El punto de referencia consta de dos escenarios complementarios: (1) Descripción en Tiempo Real, que evalúa la capacidad de generar respuestas continuas y alineadas temporalmente que sigan la evolución de las entradas multimodales; y (2) Recordatorio Proactivo, que evalúa la capacidad de identificar eventos relevantes y responder en los momentos adecuados. Omni-DuplexEval contiene 660 videos con etiquetas anotadas por humanos de forma detallada y metadatos temporales precisos, abarcando 9 tareas basadas en escenarios del mundo real, donde todas las preguntas se formulan como consultas abiertas. Además, presentamos un marco de evaluación automática basado en LLM como Juez (LLM-as-a-Judge), que permite una evaluación sistemática al valorar de manera conjunta la alineación entre el contenido de la respuesta y el tiempo de respuesta mediante razonamiento consciente de marcas temporales y secuencial, logrando una fuerte concordancia con los juicios humanos. Los experimentos realizados con MLLMs dúplex de última generación revelan limitaciones sustanciales. El modelo con mejor rendimiento alcanza solo un 39.6% general, mientras que obtiene apenas un 20.0% en Recordatorio Proactivo. Nuestro análisis identifica dos desafíos clave: los modelos tienen dificultades para equilibrar respuestas oportunas con una generación de contenido coherente y holístico, y a menudo fallan en determinar tanto el momento adecuado para responder como el contenido a producir. Esperamos que nuestro trabajo facilite avances adicionales en los MLLMs.

English

Real-time duplex interaction is essential for multimodal AI systems operating in real-world scenarios, where models must continuously process streaming inputs and respond at appropriate moments. However, most existing multimodal large language models (MLLMs) are evaluated in offline settings, where the entire video input is processed before any response is generated. While recent work has started to explore real-time duplex MLLMs, there is still no comprehensive benchmark or automatic evaluation method for this setting. To address this gap, we propose Omni-DuplexEval, a benchmark for systematically evaluating real-time duplex interaction. The benchmark consists of two complementary scenarios: (1) Real-Time Description, which evaluates the ability to generate continuous, time-aligned responses that track evolving multimodal inputs, and (2) Proactive Reminder, which evaluates the ability to identify salient events and respond at appropriate moments. Omni-DuplexEval contains 660 videos with fine-grained, human-annotated labels and precise temporal metadata, spanning 9 tasks grounded in real-world scenarios, where all questions are formulated as open-ended queries. We further introduce an automatic evaluation framework based on LLM-as-a-Judge, which enables systematic assessment by jointly evaluating response-content alignment and response timing through timestamp-aware and sequential reasoning, achieving strong alignment with human judgments. Experiments on state-of-the-art duplex MLLMs reveal substantial limitations. The best-performing model achieves only 39.6% overall, while scoring only 20.0% on Proactive Reminder. Our analysis identifies two key challenges: models struggle to balance timely responses with coherent, holistic content generation, and they often fail to determine both when to respond and what to produce. We hope our work facilitates further progress in MLLMs.