Aprendendo a Decodificar Colaborativamente com Múltiplos Modelos de Linguagem
Learning to Decode Collaboratively with Multiple Language Models
March 6, 2024
Autores: Shannon Zejiang Shen, Hunter Lang, Bailin Wang, Yoon Kim, David Sontag
cs.AI
Resumo
Propomos um método para ensinar múltiplos modelos de linguagem de grande escala (LLM) a colaborar intercalando suas gerações no nível de tokens. Modelamos a decisão sobre qual LLM gera o próximo token como uma variável latente. Ao otimizar a verossimilhança marginal de um conjunto de treinamento sob nosso modelo de variável latente, o LLM base aprende automaticamente quando gerar por si mesmo e quando chamar um dos modelos de linguagem "assistentes" para gerar, tudo sem supervisão direta. A colaboração no nível de token durante a decodificação permite uma fusão da expertise de cada modelo de maneira adaptada à tarefa específica em questão. Nossa decodificação colaborativa é especialmente útil em cenários de domínio cruzado, onde um LLM base generalista aprende a invocar modelos especialistas em domínios específicos. Em tarefas de seguir instruções, questionamento e resposta específicos de domínio, e raciocínio, mostramos que o desempenho do sistema conjunto supera o dos modelos individuais. Através de uma análise qualitativa das decisões latentes aprendidas, mostramos que os modelos treinados com nosso método exibem vários padrões interessantes de colaboração, por exemplo, preenchimento de templates. Nosso código está disponível em https://github.com/clinicalml/co-llm.
English
We propose a method to teach multiple large language models (LLM) to
collaborate by interleaving their generations at the token level. We model the
decision of which LLM generates the next token as a latent variable. By
optimizing the marginal likelihood of a training set under our latent variable
model, the base LLM automatically learns when to generate itself and when to
call on one of the ``assistant'' language models to generate, all without
direct supervision. Token-level collaboration during decoding allows for a
fusion of each model's expertise in a manner tailored to the specific task at
hand. Our collaborative decoding is especially useful in cross-domain settings
where a generalist base LLM learns to invoke domain expert models. On
instruction-following, domain-specific QA, and reasoning tasks, we show that
the performance of the joint system exceeds that of the individual models.
Through qualitative analysis of the learned latent decisions, we show models
trained with our method exhibit several interesting collaboration patterns,
e.g., template-filling. Our code is available at
https://github.com/clinicalml/co-llm.