Streaming communicatie in multi-agent redeneren

Samenvatting

Multi-agent redeneersystemen hanteren een 'genereer-dan-transfereer'-paradigma, waardoor de end-to-end latentie lineair toeneemt met de diepte van de pijplijn. We introduceren StreamMA, een multi-agent redeneersysteem dat elke redeneerstap direct naar downstream-agenten streamt zodra deze wordt gegenereerd, waardoor aangrenzende agenten in een pijplijn worden geplaatst en de latentie wordt verminderd. Verrassend genoeg verbetert deze pijplijnwerking ook de effectiviteit: omdat de kwaliteit van meerstapsredeneringen niet uniform is en eerdere stappen betrouwbaarder zijn dan latere, voorkomt het werken met deze betrouwbare eerdere stappen in plaats van de volledige keten dat foutgevoelige latere stappen downstream-agenten misleiden. We formaliseren beide voordelen met de eerste gesloten-vorm gezamenlijke analyse van stream-, seriële en single-protocollen, waarbij we de effectiviteitsordening, snelheidswinstbovengrens en kostenratio afleiden. Over acht redeneerbenchmarks die wiskunde, wetenschap en code bestrijken, twee grensverleggende LLM's (Claude Opus 4.6 en GPT-5.4) en drie topologieën (Keten, Boom, Graaf) presteert StreamMA beter dan beide baselines (gem. +7,3 pp, max +22,4 pp op HMMT 2026; Claude Opus 4.6-high). Naast deze bijdragen ontdekken we een 'stapniveau schalingswet': het verhogen van het aantal stappen per agent verbetert consequent zowel effectiviteit als efficiëntie, een nieuwe schalingsdimensie die orthogonaal is aan en samenstelbaar is met schaling op basis van het aantal agenten.

English

Multi-agent reasoning systems adopt a "generate-then-transfer" paradigm that forces end-to-end latency to scale linearly with pipeline depth. We introduce StreamMA, a multi-agent reasoning system that streams each reasoning step to downstream agents as soon as it is generated, pipelining adjacent agents and thus reducing latency. Surprisingly, this pipelining also improves effectiveness: because multi-step reasoning quality is non-uniform and early steps are more reliable than later ones, working with these reliable early steps instead of the full chain prevents error-prone late steps from misleading downstream agents. We formalize both advantages with the first closed-form joint analysis of stream, serial, and single protocols, deriving the effectiveness ordering, speedup upper bound, and cost ratio. Across eight reasoning benchmarks spanning mathematics, science, and code, two frontier LLMs (Claude Opus 4.6 and GPT-5.4), and three topologies (Chain, Tree, Graph), StreamMA outperforms both baselines (avg. +7.3 pp, max +22.4 pp on HMMT 2026; Claude Opus 4.6-high). Beyond these contributions, we discover a "step-level scaling law": increasing per-agent steps consistently improves both effectiveness and efficiency, a new scaling dimension orthogonal to and composable with agent-count scaling.