OmniInteract: Evaluación comparativa de la interacción en streaming del mundo real para asistentes omnimodales en tiempo real

Resumen

Presentamos OmniInteract, un benchmark de streaming para modelos de lenguaje grandes (LLM) omnimodales en tiempo real, evaluados mediante inferencia en línea nativa sobre flujos audiovisuales. A diferencia de la comprensión de video fuera de línea (offline) o las preguntas-respuestas (QA) de streaming basadas en texto, OmniInteract preserva el flujo audiovisual original y requiere que los modelos lo procesen en línea, sin acceso al contenido futuro. Las consultas de los usuarios y los sonidos ambientales están integrados en la pista de audio, lo que exige que los modelos detecten disparadores multimodales, decidan cuándo responder y respondan mientras el flujo se desarrolla. OmniInteract contiene 250 videos con 1,430 espacios de respuesta temporalmente anclados: 1,062 espacios 1Q1A (una pregunta, una respuesta) en escenarios en tiempo real, proactivos y anidados, y 368 espacios 1QnA (una pregunta, múltiples respuestas) para monitoreo continuo de tareas y guía paso a paso. Cada espacio incluye un disparador, una ventana de respuesta y una respuesta objetivo. Evaluamos la corrección de la respuesta, la sincronización, las salidas inválidas, el manejo de interrupciones y la continuidad del contexto utilizando el F1 de Calidad-Puntualidad Consciente de la Interacción (IA-QTF1), el Conjunto de Diagnóstico de Interrupciones (Interruption Diagnostic Suite) y la Puntuación de Finalización de Cadena Anidada (Nested Chain Completion Score). Los experimentos muestran que los modelos actuales siguen siendo débiles en la interacción en streaming, con el mejor IA-QTF1 general alcanzando solo 0.368 y el mejor IA-QTF1 para 1QnA solo 0.052. Un estudio adicional sobre el razonamiento matemático en entornos full-duplex muestra que la capacidad fuera de línea no se transfiere necesariamente a la interacción en línea. El código y los conjuntos de datos estarán disponibles públicamente en https://github.com/Lucky-Lance/OmniInteract.

English

We introduce OmniInteract, a streaming benchmark for real-time omnimodal large language models evaluated through native online inference over audio-visual streams. Unlike offline video understanding or text-prompted streaming QA, OmniInteract preserves the original audio-visual stream and requires models to process it online, without access to future content. User queries and ambient sounds are embedded in the audio track, requiring models to detect multimodal triggers, decide when to respond, and answer while the stream unfolds. OmniInteract contains 250 videos with 1,430 temporally grounded response slots: 1,062 1Q1A slots across real-time, proactive, and nested scenarios, and 368 1QnA slots for continuous task monitoring and step guidance. Each slot includes a trigger, response window, and target answer. We evaluate response correctness, timing, invalid outputs, interruption handling, and context continuity using Interaction-Aware Quality-Timeliness F1, Interruption Diagnostic Suite, and Nested Chain Completion Score. Experiments show that current models remain weak in streaming interaction, with the best overall IA-QTF1 reaching only 0.368 and the best 1QnA IA-QTF1 only 0.052. Further study on mathematical reasoning in full-duplex settings shows that offline capability does not necessarily transfer to online interaction. Code and datasets will be made publicly accessible at https://github.com/Lucky-Lance/OmniInteract.