ChatPaper.aiChatPaper

X-Stream: マルチストリーム理解のためのマルチプレクサとしてのMLLMの探求

X-Stream: Exploring MLLMs as Multiplexers for Multi-Stream Understanding

June 1, 2026
著者: Peiwen Sun, Xudong Lu, Huadai Liu, Yang Bo, Dongming Wu, Huankang Guan, Minghong Cai, Jinpeng Chen, Xintong Guo, Shuhan Li, Rui Liu, Xiangyu Yue
cs.AI

要旨

ビデオストリーミング理解は大きく進歩してきたが、ライブスポーツ放送、自動運転、マルチスクリーン連携などの実世界アプリケーションは、本質的に継続的なマルチストリーム対話を必要とする。しかし、既存のベンチマークは単一ストリームパラダイムに限定されており、オンラインのクロスストリーム推論を評価する上で重要なギャップが残されている。このギャップを埋めるため、我々はマルチストリーム・ストリーミング理解に特化した初のベンチマークであるX-Streamを導入する。X-Streamは、932本の動画にわたる4,220の厳選されたQAペアから構成され、マルチウィンドウ、マルチビュー、マルチデバイスのシナリオにわたる11のサブタスクを評価する。重要な点として、本データセットは、単一ストリームへの過度な依存を防止する新規の二重検証パイプラインを用いて構築されている。さらに、マルチモーダル大規模言語モデル(MLLM)を単純な多重化器として捉える概念を先駆けて導入し、信号多重化理論の観点からその性能を体系的に評価する。広範なオンライン推論実験により、最先端のMLLMは同時ストリームに対して著しく困難を示し、スコア約50%にとどまり、積極的な能力も乏しいという厳しい現実が明らかになった。最終的にX-Streamは、現在の多重化方式におけるトレードオフを露呈し、次世代マルチストリームエージェントのための実用的な評価プロトコルと実証的ガイダンスを提供する。
English
While video streaming understanding has made significant strides, real-world applications, such as live sports broadcasting, autonomous driving, and multi-screen collaboration, inherently demand continuous, multi-stream interactions. However, existing benchmarks are confined to single-stream paradigms, leaving a critical gap in evaluating online, cross-stream reasoning. To bridge this, we introduce X-Stream, the first benchmark dedicated to multi-stream streaming understanding. Comprising 4,220 rigorously curated QA pairs across 932 videos, X-Stream evaluates 11 subtasks across multi-window, multi-view, and multi-device scenarios. Crucially, our dataset is constructed using a novel dual-verification pipeline that prevents over-reliance on a single stream. Furthermore, we pioneer the conceptualization of multi-modal large language models (MLLMs) as naive multiplexers, systematically evaluating their performance through the lens of Signal Multiplexing Theory. Our extensive online inference experiments reveal a stark reality: state-of-the-art MLLMs struggle significantly with concurrent streams, achieving only about 50% score and exhibiting poor proactive ability. Ultimately, X-Stream exposes the trade-off of current multiplexing schemes, providing both a practical evaluation protocol and empirical guidance for next-generation multi-stream agents.