Omni-DuplexEval: Avaliação da Interação Omni-Modal Dúplex em Tempo Real
Omni-DuplexEval: Evaluating Real-time Duplex Omni-modal Interaction
May 17, 2026
Autores: Chaoqun He, Mingyang Xiang, Yingjing Xu, Bokai Xu, Junbo Cui, Jie Zhou, Yuan Yao, Lijie Wen
cs.AI
Resumo
A interação duplex em tempo real é essencial para sistemas de IA multimodal que operam em cenários do mundo real, onde os modelos devem processar continuamente entradas em fluxo e responder em momentos apropriados. No entanto, a maioria dos modelos multimodais de linguagem de grande escala (MLLMs) existentes é avaliada em configurações offline, onde toda a entrada de vídeo é processada antes que qualquer resposta seja gerada. Embora trabalhos recentes tenham começado a explorar MLLMs duplex em tempo real, ainda não existe um benchmark abrangente ou método de avaliação automática para esse cenário. Para preencher essa lacuna, propomos o Omni-DuplexEval, um benchmark para avaliar sistematicamente a interação duplex em tempo real. O benchmark consiste em dois cenários complementares: (1) Descrição em Tempo Real, que avalia a capacidade de gerar respostas contínuas e alinhadas temporalmente que acompanham entradas multimodais em evolução; e (2) Lembrete Proativo, que avalia a capacidade de identificar eventos salientes e responder em momentos apropriados. O Omni-DuplexEval contém 660 vídeos com anotações refinadas, rotuladas por humanos, e metadados temporais precisos, abrangendo 9 tarefas baseadas em cenários do mundo real, onde todas as perguntas são formuladas como consultas abertas. Introduzimos ainda uma estrutura de avaliação automática baseada em LLM como Juiz, que permite uma avaliação sistemática ao analisar conjuntamente o alinhamento conteúdo-resposta e o tempo da resposta por meio de raciocínio consciente de timestamps e raciocínio sequencial, alcançando forte alinhamento com os julgamentos humanos. Experimentos com MLLMs duplex de última geração revelam limitações substanciais. O modelo com melhor desempenho atinge apenas 39,6% no geral, enquanto pontua apenas 20,0% no Lembrete Proativo. Nossa análise identifica dois desafios principais: os modelos têm dificuldade em equilibrar respostas oportunas com geração de conteúdo coerente e holística, e frequentemente falham em determinar tanto quando responder quanto o que produzir. Esperamos que nosso trabalho facilite novos avanços em MLLMs.
English
Real-time duplex interaction is essential for multimodal AI systems operating in real-world scenarios, where models must continuously process streaming inputs and respond at appropriate moments. However, most existing multimodal large language models (MLLMs) are evaluated in offline settings, where the entire video input is processed before any response is generated. While recent work has started to explore real-time duplex MLLMs, there is still no comprehensive benchmark or automatic evaluation method for this setting. To address this gap, we propose Omni-DuplexEval, a benchmark for systematically evaluating real-time duplex interaction. The benchmark consists of two complementary scenarios: (1) Real-Time Description, which evaluates the ability to generate continuous, time-aligned responses that track evolving multimodal inputs, and (2) Proactive Reminder, which evaluates the ability to identify salient events and respond at appropriate moments. Omni-DuplexEval contains 660 videos with fine-grained, human-annotated labels and precise temporal metadata, spanning 9 tasks grounded in real-world scenarios, where all questions are formulated as open-ended queries. We further introduce an automatic evaluation framework based on LLM-as-a-Judge, which enables systematic assessment by jointly evaluating response-content alignment and response timing through timestamp-aware and sequential reasoning, achieving strong alignment with human judgments. Experiments on state-of-the-art duplex MLLMs reveal substantial limitations. The best-performing model achieves only 39.6% overall, while scoring only 20.0% on Proactive Reminder. Our analysis identifies two key challenges: models struggle to balance timely responses with coherent, holistic content generation, and they often fail to determine both when to respond and what to produce. We hope our work facilitates further progress in MLLMs.