X-Stream: Erkundung von MLLMs als Multiplexer für das Multi-Stream-Verständnis

Zusammenfassung

Obwohl das Verständnis von Videostreams bedeutende Fortschritte gemacht hat, erfordern reale Anwendungen wie Live-Sportübertragungen, autonomes Fahren und Multi-Screen-Kollaboration inhärent kontinuierliche, streamübergreifende Interaktionen. Allerdings beschränken sich bestehende Benchmarks auf Einzelstrom-Paradigmen, was eine kritische Lücke bei der Bewertung von Online-Stream-übergreifendem Denken hinterlässt. Um diese zu schließen, stellen wir X-Stream vor, den ersten Benchmark, der sich dem Verständnis von Multi-Stream-Streaming widmet. Mit 4.220 sorgfältig kuratierten Frage-Antwort-Paaren aus 932 Videos bewertet X-Stream 11 Teilaufgaben in Multi-Fenster-, Multi-Ansichts- und Multi-Geräte-Szenarien. Entscheidend ist, dass unser Datensatz mithilfe einer neuartigen Dual-Verifikations-Pipeline erstellt wird, die eine übermäßige Abhängigkeit von einem einzelnen Stream verhindert. Des Weiteren führen wir erstmals die Konzeptualisierung multimodaler großer Sprachmodelle (MLLMs) als naive Multiplexer ein und bewerten systematisch ihre Leistung durch die Brille der Signal-Multiplexing-Theorie. Unsere umfangreichen Online-Inferenzexperimente offenbaren eine deutliche Realität: Modernste MLLMs haben erhebliche Schwierigkeiten mit gleichzeitigen Streams, erreichen nur etwa 50 % der Punkte und zeigen eine schlechte proaktive Fähigkeit. Letztendlich deckt X-Stream den Trade-off aktueller Multiplexing-Schemata auf und bietet sowohl ein praktisches Bewertungsprotokoll als auch empirische Leitlinien für die nächste Generation von Multi-Stream-Agenten.

English

While video streaming understanding has made significant strides, real-world applications, such as live sports broadcasting, autonomous driving, and multi-screen collaboration, inherently demand continuous, multi-stream interactions. However, existing benchmarks are confined to single-stream paradigms, leaving a critical gap in evaluating online, cross-stream reasoning. To bridge this, we introduce X-Stream, the first benchmark dedicated to multi-stream streaming understanding. Comprising 4,220 rigorously curated QA pairs across 932 videos, X-Stream evaluates 11 subtasks across multi-window, multi-view, and multi-device scenarios. Crucially, our dataset is constructed using a novel dual-verification pipeline that prevents over-reliance on a single stream. Furthermore, we pioneer the conceptualization of multi-modal large language models (MLLMs) as naive multiplexers, systematically evaluating their performance through the lens of Signal Multiplexing Theory. Our extensive online inference experiments reveal a stark reality: state-of-the-art MLLMs struggle significantly with concurrent streams, achieving only about 50% score and exhibiting poor proactive ability. Ultimately, X-Stream exposes the trade-off of current multiplexing schemes, providing both a practical evaluation protocol and empirical guidance for next-generation multi-stream agents.