ChatPaper.aiChatPaper

Miscela di Pensieri: Imparare ad Aggregare Ciò che Pensano gli Esperti, Non Solo Ciò che Dicono

Mixture of Thoughts: Learning to Aggregate What Experts Think, Not Just What They Say

September 25, 2025
Autori: Jacob Fein-Ashley, Dhruv Parikh, Rajgopal Kannan, Viktor Prasanna
cs.AI

Abstract

I modelli linguistici di grandi dimensioni (LLM) open-source si stanno sempre più specializzando per dominio (ad esempio, matematica, codice, ragionamento generale), incentivando lo sviluppo di sistemi che sfruttano i punti di forza complementari tra i modelli. Gli approcci multi-LLM precedenti si basano su (i) l'indirizzamento di una query a uno o pochi esperti con generazione indipendente, (ii) l'aggregazione degli output di ciascun modello tramite scambi multi-turn costosi, o (iii) la fusione dei pesi in un unico modello, tipicamente richiedendo omogeneità architetturale. Introduciamo Mixture of Thoughts (MoT), un metodo semplice per la collaborazione a livello latente tra esperti eterogenei sotto uno schema di routing globale. Per ogni query, un router leggero seleziona i top-K esperti e designa un esperto primario; strati di interazione uniformemente posizionati proiettano gli stati nascosti in uno spazio latente condiviso, dove l'esperto primario esegue cross-attention sui suoi pari attivi (selezionati). Gli esperti pre-addestrati rimangono congelati; solo il router e i leggeri strati di interazione vengono addestrati con un nuovo obiettivo di addestramento congiunto che migliora sia la selezione degli esperti che la collaborazione inter-esperti. Su cinque benchmark in-distribuzione (ID) e tre out-of-distribuzione (OOD), MoT supera lo stato dell'arte basato su routing e aggregazione, Avengers, rispettivamente di +0,38% e +2,92%. Inoltre, MoT supera significativamente il singolo modello con le migliori prestazioni. Raggiunge questo risultato con inferenza a passaggio singolo, runtime comparabile ai baseline di routing e nessuno degli overhead dell'aggregazione iterativa. MoT offre un semplice meccanismo nello spazio latente per combinare LLM eterogenei, un passo pratico verso una più ampia collaborazione multi-LLM. Il nostro codice è disponibile pubblicamente all'indirizzo https://github.com/jacobfa/mot.
English
Open-source Large Language Models (LLMs) increasingly specialize by domain (e.g., math, code, general reasoning), motivating systems that leverage complementary strengths across models. Prior multi-LLM approaches either (i) route a query to one or a few experts and generate independently, (ii) aggregate outputs from each model via costly multi-turn exchanges, or (iii) fuse weights into a single model-typically requiring architectural homogeneity. We introduce Mixture of Thoughts (MoT), a simple method for latent-level collaboration among heterogeneous experts under a global routing scheme. For each query, a lightweight router selects top-K experts and designates a primary expert; uniformly placed interaction layers project hidden states into a shared latent space where the primary expert performs cross-attention over its active (selected) peers. Pre-trained experts remain frozen; only the router and the lightweight interaction layers are trained with a novel joint training objective that improves both the expert selection and inter-expert collaboration. Across five in-distribution (ID) and three out-of-distribution (OOD) benchmarks, MoT surpasses the current routing and aggregation-based state-of-the-art, Avengers, by +0.38% and +2.92%, respectively. Further, MoT significantly outperforms the best-performing single model. It achieves this with single-pass inference, runtime comparable to routing baselines, and none of the overheads of iterative aggregation. MoT offers a simple latent-space mechanism for combining heterogeneous LLMs, a practical step toward broader multi-LLM collaboration. Our code is publicly available at https://github.com/jacobfa/mot.
PDF82September 26, 2025