OmniInteract: Benchmarking de Interação de Streaming em Cenários Reais para Assistentes Omnimodais em Tempo Real

Resumo

Apresentamos o OmniInteract, um benchmark de streaming para modelos de linguagem grandes omnimodais em tempo real, avaliados por meio de inferência online nativa sobre fluxos audiovisuais. Diferentemente da compreensão de vídeo offline ou de QA de streaming com prompts de texto, o OmniInteract preserva o fluxo audiovisual original e exige que os modelos o processem online, sem acesso ao conteúdo futuro. Consultas do usuário e sons ambiente estão embutidos na trilha de áudio, exigindo que os modelos detectem gatilhos multimodais, decidam quando responder e respondam enquanto o fluxo se desenrola. O OmniInteract contém 250 vídeos com 1.430 slots de resposta temporalmente fundamentados: 1.062 slots 1Q1A em cenários de tempo real, proativos e aninhados, e 368 slots 1QnA para monitoramento contínuo de tarefas e orientação passo a passo. Cada slot inclui um gatilho, uma janela de resposta e uma resposta alvo. Avaliamos a correção da resposta, o tempo, as saídas inválidas, o tratamento de interrupções e a continuidade do contexto usando o F1 de Qualidade-Temporalidade com Consciência de Interação (IA-QTF1), o Conjunto de Diagnóstico de Interrupção e a Pontuação de Conclusão de Cadeia Aninhada. Experimentos mostram que os modelos atuais permanecem fracos na interação por streaming, com o melhor IA-QTF1 geral atingindo apenas 0,368 e o melhor IA-QTF1 para 1QnA apenas 0,052. Um estudo adicional sobre raciocínio matemático em configurações full-duplex mostra que a capacidade offline não se transfere necessariamente para a interação online. O código e os conjuntos de dados serão disponibilizados publicamente em https://github.com/Lucky-Lance/OmniInteract.

English

We introduce OmniInteract, a streaming benchmark for real-time omnimodal large language models evaluated through native online inference over audio-visual streams. Unlike offline video understanding or text-prompted streaming QA, OmniInteract preserves the original audio-visual stream and requires models to process it online, without access to future content. User queries and ambient sounds are embedded in the audio track, requiring models to detect multimodal triggers, decide when to respond, and answer while the stream unfolds. OmniInteract contains 250 videos with 1,430 temporally grounded response slots: 1,062 1Q1A slots across real-time, proactive, and nested scenarios, and 368 1QnA slots for continuous task monitoring and step guidance. Each slot includes a trigger, response window, and target answer. We evaluate response correctness, timing, invalid outputs, interruption handling, and context continuity using Interaction-Aware Quality-Timeliness F1, Interruption Diagnostic Suite, and Nested Chain Completion Score. Experiments show that current models remain weak in streaming interaction, with the best overall IA-QTF1 reaching only 0.368 and the best 1QnA IA-QTF1 only 0.052. Further study on mathematical reasoning in full-duplex settings shows that offline capability does not necessarily transfer to online interaction. Code and datasets will be made publicly accessible at https://github.com/Lucky-Lance/OmniInteract.