X-Stream: het verkennen van MLLM's als multiplexers voor multi-stroombegrip

Samenvatting

Hoewel het begrip van videostreams aanzienlijke vooruitgang heeft geboekt, vereisen praktijktoepassingen zoals live sportuitzendingen, autonoom rijden en samenwerking op meerdere schermen inherent continue interacties met meerdere stromen. Bestaande benchmarks zijn echter beperkt tot enkelstroomparadigma's, waardoor er een cruciale leemte ontstaat in de evaluatie van online redeneren over stromen heen. Om dit te overbruggen introduceren we X-Stream, de eerste benchmark die zich richt op het begrip van meerdere stromen. X-Stream bestaat uit 4.220 zorgvuldig samengestelde QA-paren verspreid over 932 video's en evalueert 11 deeltaken in scenario's met meerdere vensters, meerdere aanzichten en meerdere apparaten. Cruciaal is dat onze dataset is geconstrueerd met behulp van een nieuwe duale verificatiepijplijn die overmatige afhankelijkheid van een enkele stroom voorkomt. Verder pionieren we met het conceptualiseren van multimodale grote taalmodellen (MLLM's) als naïeve multiplexers, waarbij we hun prestatie systematisch evalueren door de lens van de Signaalmultiplexingtheorie. Onze uitgebreide online inferentie-experimenten onthullen een harde realiteit: state-of-the-art MLLM's worstelen aanzienlijk met gelijktijdige stromen, behalen slechts ongeveer 50% score en vertonen een slecht proactief vermogen. Uiteindelijk legt X-Stream de afweging van huidige multiplexingschema's bloot, en biedt het zowel een praktisch evaluatieprotocol als empirische richtlijnen voor volgende generatie multi-stroomagenten.

English

While video streaming understanding has made significant strides, real-world applications, such as live sports broadcasting, autonomous driving, and multi-screen collaboration, inherently demand continuous, multi-stream interactions. However, existing benchmarks are confined to single-stream paradigms, leaving a critical gap in evaluating online, cross-stream reasoning. To bridge this, we introduce X-Stream, the first benchmark dedicated to multi-stream streaming understanding. Comprising 4,220 rigorously curated QA pairs across 932 videos, X-Stream evaluates 11 subtasks across multi-window, multi-view, and multi-device scenarios. Crucially, our dataset is constructed using a novel dual-verification pipeline that prevents over-reliance on a single stream. Furthermore, we pioneer the conceptualization of multi-modal large language models (MLLMs) as naive multiplexers, systematically evaluating their performance through the lens of Signal Multiplexing Theory. Our extensive online inference experiments reveal a stark reality: state-of-the-art MLLMs struggle significantly with concurrent streams, achieving only about 50% score and exhibiting poor proactive ability. Ultimately, X-Stream exposes the trade-off of current multiplexing schemes, providing both a practical evaluation protocol and empirical guidance for next-generation multi-stream agents.