X-Stream: Explorando MLLMs como Multiplexores para la Comprensión Multi-Flujo

Resumen

Aunque la comprensión de transmisiones de video en tiempo real ha logrado avances significativos, las aplicaciones del mundo real, como la transmisión de deportes en vivo, la conducción autónoma y la colaboración en múltiples pantallas, exigen inherentemente interacciones continuas con múltiples flujos. Sin embargo, los benchmarks existentes se limitan a paradigmas de un solo flujo, dejando un vacío crítico en la evaluación del razonamiento en línea y entre flujos. Para cerrar esta brecha, presentamos X-Stream, el primer benchmark dedicado a la comprensión de múltiples flujos en tiempo real. Compuesto por 4.220 pares de preguntas y respuestas rigurosamente seleccionados en 932 videos, X-Stream evalúa 11 subtareas en escenarios de múltiples ventanas, múltiples vistas y múltiples dispositivos. Crucialmente, nuestro conjunto de datos se construye utilizando un novedoso pipeline de verificación dual que evita la dependencia excesiva de un solo flujo. Además, somos pioneros en la conceptualización de modelos de lenguaje grandes multimodales (MLLMs) como multiplexores ingenuos, evaluando sistemáticamente su rendimiento a través del lente de la Teoría de Multiplexación de Señales. Nuestros extensos experimentos de inferencia en línea revelan una cruda realidad: los MLLMs de última generación tienen dificultades significativas con flujos concurrentes, logrando solo alrededor del 50% de puntuación y mostrando una pobre capacidad proactiva. En última instancia, X-Stream expone la compensación de los esquemas de multiplexación actuales, proporcionando tanto un protocolo de evaluación práctico como una guía empírica para los agentes de múltiples flujos de próxima generación.

English

While video streaming understanding has made significant strides, real-world applications, such as live sports broadcasting, autonomous driving, and multi-screen collaboration, inherently demand continuous, multi-stream interactions. However, existing benchmarks are confined to single-stream paradigms, leaving a critical gap in evaluating online, cross-stream reasoning. To bridge this, we introduce X-Stream, the first benchmark dedicated to multi-stream streaming understanding. Comprising 4,220 rigorously curated QA pairs across 932 videos, X-Stream evaluates 11 subtasks across multi-window, multi-view, and multi-device scenarios. Crucially, our dataset is constructed using a novel dual-verification pipeline that prevents over-reliance on a single stream. Furthermore, we pioneer the conceptualization of multi-modal large language models (MLLMs) as naive multiplexers, systematically evaluating their performance through the lens of Signal Multiplexing Theory. Our extensive online inference experiments reveal a stark reality: state-of-the-art MLLMs struggle significantly with concurrent streams, achieving only about 50% score and exhibiting poor proactive ability. Ultimately, X-Stream exposes the trade-off of current multiplexing schemes, providing both a practical evaluation protocol and empirical guidance for next-generation multi-stream agents.