Redes de Linguagem Profunda: Treinamento Conjunto de Prompts de LLMs Empilhados usando Inferência Variacional
Deep Language Networks: Joint Prompt Training of Stacked LLMs using Variational Inference
June 21, 2023
Autores: Alessandro Sordoni, Xingdi Yuan, Marc-Alexandre Côté, Matheus Pereira, Adam Trischler, Ziang Xiao, Arian Hosseini, Friederike Niedtner, Nicolas Le Roux
cs.AI
Resumo
Nós consideramos os grandes modelos de linguagem (LLMs) como camadas estocásticas de linguagem em uma rede, onde os parâmetros aprendíveis são os prompts de linguagem natural em cada camada. Empilhamos duas dessas camadas, alimentando a saída de uma camada para a próxima. Chamamos essa arquitetura empilhada de Rede de Linguagem Profunda (Deep Language Network - DLN). Primeiro, mostramos como realizar efetivamente a otimização de prompts para uma rede de linguagem de 1 camada (DLN-1). Em seguida, mostramos como treinar DLNs de 2 camadas (DLN-2), onde dois prompts devem ser aprendidos. Consideramos a saída da primeira camada como uma variável latente a ser marginalizada e desenvolvemos um algoritmo de inferência variacional para o treinamento conjunto de prompts. Uma DLN-2 alcança desempenho superior ao de uma única camada, às vezes comparável ao GPT-4 com poucos exemplos, mesmo quando cada LLM na rede é menor e menos poderoso. O código da DLN é de código aberto: https://github.com/microsoft/deep-language-networks.
English
We view large language models (LLMs) as stochastic language layers in
a network, where the learnable parameters are the natural language
prompts at each layer. We stack two such layers, feeding the output of
one layer to the next. We call the stacked architecture a Deep Language
Network (DLN). We first show how to effectively perform prompt optimization
for a 1-Layer language network (DLN-1). We then show how to train 2-layer DLNs
(DLN-2), where two prompts must be learnt. We consider the output of the first
layer as a latent variable to marginalize, and devise a variational inference
algorithm for joint prompt training. A DLN-2 reaches higher performance than a
single layer, sometimes comparable to few-shot GPT-4 even when each LLM in the
network is smaller and less powerful. The DLN code is open source:
https://github.com/microsoft/deep-language-networks .