Il Modello a Miscela di Agenti Potenzia le Capacità dei Modelli Linguistici di Grandi Dimensioni
Mixture-of-Agents Enhances Large Language Model Capabilities
June 7, 2024
Autori: Junlin Wang, Jue Wang, Ben Athiwaratkun, Ce Zhang, James Zou
cs.AI
Abstract
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) dimostrano capacità significative nelle attività di comprensione e generazione del linguaggio naturale. Con il crescente numero di LLM, come sfruttare l'esperienza collettiva di più LLM rappresenta una direzione di ricerca aperta e promettente. Verso questo obiettivo, proponiamo un nuovo approccio che sfrutta i punti di forza collettivi di più LLM attraverso una metodologia chiamata Mixture-of-Agents (MoA). Nel nostro approccio, costruiamo un'architettura MoA stratificata in cui ogni livello comprende più agenti LLM. Ogni agente utilizza tutti gli output degli agenti del livello precedente come informazioni ausiliarie per generare la propria risposta. I modelli MoA raggiungono prestazioni all'avanguardia su AlpacaEval 2.0, MT-Bench e FLASK, superando GPT-4 Omni. Ad esempio, il nostro MoA, che utilizza solo LLM open-source, è in testa alla classifica di AlpacaEval 2.0 con un margine significativo, ottenendo un punteggio del 65,1% rispetto al 57,5% di GPT-4 Omni.
English
Recent advances in large language models (LLMs) demonstrate substantial
capabilities in natural language understanding and generation tasks. With the
growing number of LLMs, how to harness the collective expertise of multiple
LLMs is an exciting open direction. Toward this goal, we propose a new approach
that leverages the collective strengths of multiple LLMs through a
Mixture-of-Agents (MoA) methodology. In our approach, we construct a layered
MoA architecture wherein each layer comprises multiple LLM agents. Each agent
takes all the outputs from agents in the previous layer as auxiliary
information in generating its response. MoA models achieves state-of-art
performance on AlpacaEval 2.0, MT-Bench and FLASK, surpassing GPT-4 Omni. For
example, our MoA using only open-source LLMs is the leader of AlpacaEval 2.0 by
a substantial gap, achieving a score of 65.1% compared to 57.5% by GPT-4 Omni.