Imparare a Decodificare in Modo Collaborativo con Modelli Linguistici Multipli
Learning to Decode Collaboratively with Multiple Language Models
March 6, 2024
Autori: Shannon Zejiang Shen, Hunter Lang, Bailin Wang, Yoon Kim, David Sontag
cs.AI
Abstract
Proponiamo un metodo per insegnare a più modelli linguistici di grandi dimensioni (LLM) a collaborare intercalando le loro generazioni a livello di token. Modelliamo la decisione su quale LLM generi il token successivo come una variabile latente. Ottimizzando la verosimiglianza marginale di un insieme di addestramento sotto il nostro modello a variabile latente, il LLM di base impara automaticamente quando generare da sé e quando chiamare uno dei modelli linguistici "assistenti" per generare, tutto senza supervisione diretta. La collaborazione a livello di token durante la decodifica consente una fusione delle competenze di ciascun modello in modo adattato al compito specifico. La nostra decodifica collaborativa è particolarmente utile in contesti cross-dominio in cui un LLM generalista impara a invocare modelli esperti di dominio. Su compiti di esecuzione di istruzioni, QA specifico di dominio e ragionamento, dimostriamo che le prestazioni del sistema congiunto superano quelle dei singoli modelli. Attraverso un'analisi qualitativa delle decisioni latenti apprese, mostriamo che i modelli addestrati con il nostro metodo presentano diversi interessanti schemi di collaborazione, ad esempio il riempimento di template. Il nostro codice è disponibile all'indirizzo https://github.com/clinicalml/co-llm.
English
We propose a method to teach multiple large language models (LLM) to
collaborate by interleaving their generations at the token level. We model the
decision of which LLM generates the next token as a latent variable. By
optimizing the marginal likelihood of a training set under our latent variable
model, the base LLM automatically learns when to generate itself and when to
call on one of the ``assistant'' language models to generate, all without
direct supervision. Token-level collaboration during decoding allows for a
fusion of each model's expertise in a manner tailored to the specific task at
hand. Our collaborative decoding is especially useful in cross-domain settings
where a generalist base LLM learns to invoke domain expert models. On
instruction-following, domain-specific QA, and reasoning tasks, we show that
the performance of the joint system exceeds that of the individual models.
Through qualitative analysis of the learned latent decisions, we show models
trained with our method exhibit several interesting collaboration patterns,
e.g., template-filling. Our code is available at
https://github.com/clinicalml/co-llm.