X-Stream : Explorer les MLLM comme multiplexeurs pour la compréhension multi-flux

Résumé

Bien que la compréhension du streaming vidéo ait réalisé des progrès significatifs, les applications réelles, telles que la diffusion sportive en direct, la conduite autonome et la collaboration multi-écrans, exigent intrinsèquement des interactions continues et multi-flux. Cependant, les benchmarks existants sont confinés à des paradigmes mono-flux, laissant un écart critique dans l'évaluation du raisonnement en ligne et inter-flux. Pour combler cette lacune, nous présentons X-Stream, le premier benchmark dédié à la compréhension du streaming multi-flux. Composé de 4 220 paires de questions-réponses rigoureusement sélectionnées issues de 932 vidéos, X-Stream évalue 11 sous-tâches dans des scénarios multi-fenêtres, multi-vues et multi-appareils. Crucialement, notre jeu de données est construit à l'aide d'un pipeline de double vérification novateur qui empêche une dépendance excessive à un seul flux. De plus, nous sommes les premiers à conceptualiser les modèles de langage multimodaux de grande taille (MLLMs) comme des multiplexeurs naïfs, évaluant systématiquement leurs performances à travers le prisme de la théorie du multiplexage de signaux. Nos expériences approfondies d'inférence en ligne révèlent une réalité frappante : les MLLMs les plus avancés peinent considérablement avec les flux simultanés, n'atteignant qu'un score d'environ 50 % et montrant une faible capacité proactive. En fin de compte, X-Stream expose le compromis des schémas de multiplexage actuels, fournissant à la fois un protocole d'évaluation pratique et des orientations empiriques pour les agents multi-flux de nouvelle génération.

English

While video streaming understanding has made significant strides, real-world applications, such as live sports broadcasting, autonomous driving, and multi-screen collaboration, inherently demand continuous, multi-stream interactions. However, existing benchmarks are confined to single-stream paradigms, leaving a critical gap in evaluating online, cross-stream reasoning. To bridge this, we introduce X-Stream, the first benchmark dedicated to multi-stream streaming understanding. Comprising 4,220 rigorously curated QA pairs across 932 videos, X-Stream evaluates 11 subtasks across multi-window, multi-view, and multi-device scenarios. Crucially, our dataset is constructed using a novel dual-verification pipeline that prevents over-reliance on a single stream. Furthermore, we pioneer the conceptualization of multi-modal large language models (MLLMs) as naive multiplexers, systematically evaluating their performance through the lens of Signal Multiplexing Theory. Our extensive online inference experiments reveal a stark reality: state-of-the-art MLLMs struggle significantly with concurrent streams, achieving only about 50% score and exhibiting poor proactive ability. Ultimately, X-Stream exposes the trade-off of current multiplexing schemes, providing both a practical evaluation protocol and empirical guidance for next-generation multi-stream agents.