Colaboração Latente em Sistemas Multiagente

Resumo

Os sistemas multiagente (MAS) estendem os grandes modelos de linguagem (LLMs) do raciocínio independente de modelo único para uma inteligência coordenada em nível de sistema. Enquanto os agentes de LLM existentes dependem de mediação baseada em texto para raciocínio e comunicação, damos um passo adiante ao permitir que os modelos colaborem diretamente no espaço latente contínuo. Apresentamos o LatentMAS, uma estrutura livre de treinamento de ponta a ponta que permite colaboração latente pura entre agentes de LLM. No LatentMAS, cada agente primeiro realiza a geração autoregressiva de pensamentos latentes por meio de embeddings ocultos da última camada. Uma memória de trabalho latente compartilhada preserva e transfere as representações internas de cada agente, garantindo troca de informações sem perdas. Fornecemos análises teóricas que estabelecem que o LatentMAS atinge maior expressividade e preservação de informações sem perdas com complexidade substancialmente menor do que os MAS baseados em texto tradicionais. Além disso, avaliações empíricas em 9 benchmarks abrangentes abrangendo raciocínio matemático e científico, compreensão de senso comum e geração de código mostram que o LatentMAS supera consistentemente as linhas de base fortes de modelo único e MAS baseados em texto, alcançando até 14,6% maior precisão, reduzindo o uso de tokens de saída em 70,8%-83,7% e fornecendo inferência de ponta a ponta 4x-4,3x mais rápida. Esses resultados demonstram que nossa nova estrutura de colaboração latente melhora a qualidade do raciocínio em nível de sistema, oferecendo ganhos substanciais de eficiência sem qualquer treinamento adicional. Código e dados são totalmente de código aberto em https://github.com/Gen-Verse/LatentMAS.

English

Multi-agent systems (MAS) extend large language models (LLMs) from independent single-model reasoning to coordinative system-level intelligence. While existing LLM agents depend on text-based mediation for reasoning and communication, we take a step forward by enabling models to collaborate directly within the continuous latent space. We introduce LatentMAS, an end-to-end training-free framework that enables pure latent collaboration among LLM agents. In LatentMAS, each agent first performs auto-regressive latent thoughts generation through last-layer hidden embeddings. A shared latent working memory then preserves and transfers each agent's internal representations, ensuring lossless information exchange. We provide theoretical analyses establishing that LatentMAS attains higher expressiveness and lossless information preservation with substantially lower complexity than vanilla text-based MAS. In addition, empirical evaluations across 9 comprehensive benchmarks spanning math and science reasoning, commonsense understanding, and code generation show that LatentMAS consistently outperforms strong single-model and text-based MAS baselines, achieving up to 14.6% higher accuracy, reducing output token usage by 70.8%-83.7%, and providing 4x-4.3x faster end-to-end inference. These results demonstrate that our new latent collaboration framework enhances system-level reasoning quality while offering substantial efficiency gains without any additional training. Code and data are fully open-sourced at https://github.com/Gen-Verse/LatentMAS.

Colaboração Latente em Sistemas Multiagente

Latent Collaboration in Multi-Agent Systems

Resumo

Support