X-Stream: Изучение MLLM в качестве мультиплексоров для многопоточного понимания

Аннотация

Хотя понимание потокового видео достигло значительных успехов, реальные приложения, такие как прямые спортивные трансляции, автономное вождение и многожранное взаимодействие, по своей сути требуют непрерывного взаимодействия с несколькими потоками. Однако существующие эталоны ограничены однопоточными парадигмами, что создает критический пробел в оценке онлайн-рассуждений между потоками. Для устранения этого пробела мы представляем X-Stream — первый эталон, посвященный многопоточному потоковому пониманию. Состоящий из 4 220 тщательно отобранных пар вопрос-ответ, охватывающих 932 видео, X-Stream оценивает 11 подзадач в сценариях с несколькими окнами, несколькими ракурсами и несколькими устройствами. Ключевой особенностью нашего набора данных является новый двухэтапный процесс верификации, предотвращающий чрезмерную зависимость от единственного потока. Кроме того, мы впервые концептуализируем мультимодальные большие языковые модели (MLLM) как наивные мультиплексоры, систематически оценивая их производительность через призму теории мультиплексирования сигналов. Наши обширные эксперименты по онлайн-логическому выводу выявляют суровую реальность: современные MLLM испытывают значительные трудности с одновременными потоками, достигая лишь около 50% правильных ответов и демонстрируя слабую проактивную способность. В конечном итоге X-Stream раскрывает компромисс современных схем мультиплексирования, предоставляя как практический протокол оценки, так и эмпирические рекомендации для будущих многопоточных агентов.

English

While video streaming understanding has made significant strides, real-world applications, such as live sports broadcasting, autonomous driving, and multi-screen collaboration, inherently demand continuous, multi-stream interactions. However, existing benchmarks are confined to single-stream paradigms, leaving a critical gap in evaluating online, cross-stream reasoning. To bridge this, we introduce X-Stream, the first benchmark dedicated to multi-stream streaming understanding. Comprising 4,220 rigorously curated QA pairs across 932 videos, X-Stream evaluates 11 subtasks across multi-window, multi-view, and multi-device scenarios. Crucially, our dataset is constructed using a novel dual-verification pipeline that prevents over-reliance on a single stream. Furthermore, we pioneer the conceptualization of multi-modal large language models (MLLMs) as naive multiplexers, systematically evaluating their performance through the lens of Signal Multiplexing Theory. Our extensive online inference experiments reveal a stark reality: state-of-the-art MLLMs struggle significantly with concurrent streams, achieving only about 50% score and exhibiting poor proactive ability. Ultimately, X-Stream exposes the trade-off of current multiplexing schemes, providing both a practical evaluation protocol and empirical guidance for next-generation multi-stream agents.