Imparare a Decodificare in Modo Collaborativo con Modelli Linguistici Multipli

Abstract

Proponiamo un metodo per insegnare a più modelli linguistici di grandi dimensioni (LLM) a collaborare intercalando le loro generazioni a livello di token. Modelliamo la decisione su quale LLM generi il token successivo come una variabile latente. Ottimizzando la verosimiglianza marginale di un insieme di addestramento sotto il nostro modello a variabile latente, il LLM di base impara automaticamente quando generare da sé e quando chiamare uno dei modelli linguistici "assistenti" per generare, tutto senza supervisione diretta. La collaborazione a livello di token durante la decodifica consente una fusione delle competenze di ciascun modello in modo adattato al compito specifico. La nostra decodifica collaborativa è particolarmente utile in contesti cross-dominio in cui un LLM generalista impara a invocare modelli esperti di dominio. Su compiti di esecuzione di istruzioni, QA specifico di dominio e ragionamento, dimostriamo che le prestazioni del sistema congiunto superano quelle dei singoli modelli. Attraverso un'analisi qualitativa delle decisioni latenti apprese, mostriamo che i modelli addestrati con il nostro metodo presentano diversi interessanti schemi di collaborazione, ad esempio il riempimento di template. Il nostro codice è disponibile all'indirizzo https://github.com/clinicalml/co-llm.

English

We propose a method to teach multiple large language models (LLM) to collaborate by interleaving their generations at the token level. We model the decision of which LLM generates the next token as a latent variable. By optimizing the marginal likelihood of a training set under our latent variable model, the base LLM automatically learns when to generate itself and when to call on one of the ``assistant'' language models to generate, all without direct supervision. Token-level collaboration during decoding allows for a fusion of each model's expertise in a manner tailored to the specific task at hand. Our collaborative decoding is especially useful in cross-domain settings where a generalist base LLM learns to invoke domain expert models. On instruction-following, domain-specific QA, and reasoning tasks, we show that the performance of the joint system exceeds that of the individual models. Through qualitative analysis of the learned latent decisions, we show models trained with our method exhibit several interesting collaboration patterns, e.g., template-filling. Our code is available at https://github.com/clinicalml/co-llm.

Imparare a Decodificare in Modo Collaborativo con Modelli Linguistici Multipli

Learning to Decode Collaboratively with Multiple Language Models

Abstract

Support