Comunicação em Streaming no Raciocínio Multiagente

Resumo

Os sistemas de raciocínio multiagente adotam um paradigma de "gerar-depois-transferir" que força a latência ponta a ponta a escalar linearmente com a profundidade do pipeline. Apresentamos o StreamMA, um sistema de raciocínio multiagente que transmite cada passo de raciocínio para agentes downstream assim que é gerado, criando um pipeline entre agentes adjacentes e, assim, reduzindo a latência. Surpreendentemente, esse pipeline também melhora a eficácia: como a qualidade do raciocínio em múltiplos passos não é uniforme e os passos iniciais são mais confiáveis que os posteriores, trabalhar com esses passos iniciais confiáveis, em vez da cadeia completa, impede que passos finais propensos a erros enganem os agentes downstream. Formalizamos ambas as vantagens com a primeira análise conjunta de forma fechada dos protocolos stream, serial e único, derivando a ordem de eficácia, o limite superior de aceleração e a razão de custo. Em oito benchmarks de raciocínio abrangendo matemática, ciências e código, dois LLMs de fronteira (Claude Opus 4.6 e GPT-5.4) e três topologias (Cadeia, Árvore, Grafo), o StreamMA supera ambas as linhas de base (média +7,3 pp, máximo +22,4 pp no HMMT 2026; Claude Opus 4.6-high). Além dessas contribuições, descobrimos uma "lei de escalonamento em nível de passo": aumentar os passos por agente melhora consistentemente tanto a eficácia quanto a eficiência, uma nova dimensão de escalonamento ortogonal e combinável com o escalonamento por contagem de agentes.

English

Multi-agent reasoning systems adopt a "generate-then-transfer" paradigm that forces end-to-end latency to scale linearly with pipeline depth. We introduce StreamMA, a multi-agent reasoning system that streams each reasoning step to downstream agents as soon as it is generated, pipelining adjacent agents and thus reducing latency. Surprisingly, this pipelining also improves effectiveness: because multi-step reasoning quality is non-uniform and early steps are more reliable than later ones, working with these reliable early steps instead of the full chain prevents error-prone late steps from misleading downstream agents. We formalize both advantages with the first closed-form joint analysis of stream, serial, and single protocols, deriving the effectiveness ordering, speedup upper bound, and cost ratio. Across eight reasoning benchmarks spanning mathematics, science, and code, two frontier LLMs (Claude Opus 4.6 and GPT-5.4), and three topologies (Chain, Tree, Graph), StreamMA outperforms both baselines (avg. +7.3 pp, max +22.4 pp on HMMT 2026; Claude Opus 4.6-high). Beyond these contributions, we discover a "step-level scaling law": increasing per-agent steps consistently improves both effectiveness and efficiency, a new scaling dimension orthogonal to and composable with agent-count scaling.