X-Stream: Explorando MLLMs como Multiplexadores para Compreensão Multi-Fluxo

Resumo

Embora a compreensão de streaming de vídeo tenha feito avanços significativos, aplicações do mundo real, como transmissão esportiva ao vivo, direção autônoma e colaboração em múltiplas telas, demandam inerentemente interações contínuas e com múltiplos fluxos. No entanto, os benchmarks existentes estão confinados a paradigmas de fluxo único, deixando uma lacuna crítica na avaliação do raciocínio online entre fluxos. Para preencher essa lacuna, apresentamos o X-Stream, o primeiro benchmark dedicado à compreensão de streaming multifluxo. Composto por 4.220 pares de perguntas e respostas rigorosamente selecionados em 932 vídeos, o X-Stream avalia 11 subtarefas em cenários de múltiplas janelas, múltiplas visualizações e múltiplos dispositivos. Crucialmente, nosso conjunto de dados é construído usando um novo pipeline de dupla verificação que evita a dependência excessiva de um único fluxo. Além disso, pioneirizamos a conceituação de modelos de linguagem de grande escala multimodais (MLLMs) como multiplexadores ingênuos, avaliando sistematicamente seu desempenho através da lente da Teoria de Multiplexação de Sinais. Nossos extensos experimentos de inferência online revelam uma realidade nítida: MLLMs de ponta têm dificuldades significativas com fluxos concorrentes, alcançando apenas cerca de 50% de pontuação e exibindo baixa capacidade proativa. Por fim, o X-Stream expõe o trade-off dos esquemas atuais de multiplexação, fornecendo tanto um protocolo de avaliação prático quanto orientação empírica para agentes multifluxo de próxima geração.

English

While video streaming understanding has made significant strides, real-world applications, such as live sports broadcasting, autonomous driving, and multi-screen collaboration, inherently demand continuous, multi-stream interactions. However, existing benchmarks are confined to single-stream paradigms, leaving a critical gap in evaluating online, cross-stream reasoning. To bridge this, we introduce X-Stream, the first benchmark dedicated to multi-stream streaming understanding. Comprising 4,220 rigorously curated QA pairs across 932 videos, X-Stream evaluates 11 subtasks across multi-window, multi-view, and multi-device scenarios. Crucially, our dataset is constructed using a novel dual-verification pipeline that prevents over-reliance on a single stream. Furthermore, we pioneer the conceptualization of multi-modal large language models (MLLMs) as naive multiplexers, systematically evaluating their performance through the lens of Signal Multiplexing Theory. Our extensive online inference experiments reveal a stark reality: state-of-the-art MLLMs struggle significantly with concurrent streams, achieving only about 50% score and exhibiting poor proactive ability. Ultimately, X-Stream exposes the trade-off of current multiplexing schemes, providing both a practical evaluation protocol and empirical guidance for next-generation multi-stream agents.