ChatPaper.aiChatPaper

Mistura de Pensamentos: Aprendendo a Agregar o que os Especialistas Pensam, Não Apenas o que Eles Dizem

Mixture of Thoughts: Learning to Aggregate What Experts Think, Not Just What They Say

September 25, 2025
Autores: Jacob Fein-Ashley, Dhruv Parikh, Rajgopal Kannan, Viktor Prasanna
cs.AI

Resumo

Modelos de Linguagem de Grande Escala (LLMs) de código aberto estão cada vez mais especializados por domínio (por exemplo, matemática, código, raciocínio geral), motivando sistemas que aproveitam pontos fortes complementares entre modelos. Abordagens anteriores com múltiplos LLMs ou (i) direcionam uma consulta para um ou alguns especialistas e geram respostas de forma independente, (ii) agregam saídas de cada modelo por meio de trocas caras e multi-turnos, ou (iii) fundem pesos em um único modelo — geralmente exigindo homogeneidade arquitetônica. Introduzimos o Método de Mistura de Pensamentos (MoT), uma abordagem simples para colaboração em nível latente entre especialistas heterogêneos sob um esquema global de roteamento. Para cada consulta, um roteador leve seleciona os K principais especialistas e designa um especialista primário; camadas de interação uniformemente posicionadas projetam estados ocultos em um espaço latente compartilhado, onde o especialista primário realiza atenção cruzada sobre seus pares ativos (selecionados). Especialistas pré-treinados permanecem congelados; apenas o roteador e as camadas leves de interação são treinados com um novo objetivo de treinamento conjunto que melhora tanto a seleção de especialistas quanto a colaboração inter-especialistas. Em cinco benchmarks in-distribution (ID) e três out-of-distribution (OOD), o MoT supera o estado da arte baseado em roteamento e agregação, Avengers, em +0,38% e +2,92%, respectivamente. Além disso, o MoT supera significativamente o melhor modelo único. Ele alcança isso com inferência de passagem única, tempo de execução comparável às linhas de base de roteamento e sem as sobrecargas da agregação iterativa. O MoT oferece um mecanismo simples no espaço latente para combinar LLMs heterogêneos, um passo prático em direção a uma colaboração mais ampla entre múltiplos LLMs. Nosso código está disponível publicamente em https://github.com/jacobfa/mot.
English
Open-source Large Language Models (LLMs) increasingly specialize by domain (e.g., math, code, general reasoning), motivating systems that leverage complementary strengths across models. Prior multi-LLM approaches either (i) route a query to one or a few experts and generate independently, (ii) aggregate outputs from each model via costly multi-turn exchanges, or (iii) fuse weights into a single model-typically requiring architectural homogeneity. We introduce Mixture of Thoughts (MoT), a simple method for latent-level collaboration among heterogeneous experts under a global routing scheme. For each query, a lightweight router selects top-K experts and designates a primary expert; uniformly placed interaction layers project hidden states into a shared latent space where the primary expert performs cross-attention over its active (selected) peers. Pre-trained experts remain frozen; only the router and the lightweight interaction layers are trained with a novel joint training objective that improves both the expert selection and inter-expert collaboration. Across five in-distribution (ID) and three out-of-distribution (OOD) benchmarks, MoT surpasses the current routing and aggregation-based state-of-the-art, Avengers, by +0.38% and +2.92%, respectively. Further, MoT significantly outperforms the best-performing single model. It achieves this with single-pass inference, runtime comparable to routing baselines, and none of the overheads of iterative aggregation. MoT offers a simple latent-space mechanism for combining heterogeneous LLMs, a practical step toward broader multi-LLM collaboration. Our code is publicly available at https://github.com/jacobfa/mot.
PDF82September 26, 2025