Redes de Lenguaje Profundo: Entrenamiento Conjunto de LLMs Apilados mediante Inferencia Variacional
Deep Language Networks: Joint Prompt Training of Stacked LLMs using Variational Inference
June 21, 2023
Autores: Alessandro Sordoni, Xingdi Yuan, Marc-Alexandre Côté, Matheus Pereira, Adam Trischler, Ziang Xiao, Arian Hosseini, Friederike Niedtner, Nicolas Le Roux
cs.AI
Resumen
Consideramos a los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) como capas estocásticas de lenguaje en una red, donde los parámetros aprendibles son los prompts de lenguaje natural en cada capa. Apilamos dos de estas capas, alimentando la salida de una capa a la siguiente. Denominamos a esta arquitectura apilada como Red de Lenguaje Profunda (DLN, por sus siglas en inglés). Primero demostramos cómo optimizar eficazmente los prompts para una red de lenguaje de 1 capa (DLN-1). Luego, mostramos cómo entrenar DLNs de 2 capas (DLN-2), donde se deben aprender dos prompts. Consideramos la salida de la primera capa como una variable latente a marginalizar y diseñamos un algoritmo de inferencia variacional para el entrenamiento conjunto de prompts. Una DLN-2 alcanza un rendimiento superior al de una sola capa, a veces comparable al de GPT-4 con pocos ejemplos, incluso cuando cada LLM en la red es más pequeño y menos potente. El código de la DLN es de código abierto: https://github.com/microsoft/deep-language-networks.
English
We view large language models (LLMs) as stochastic language layers in
a network, where the learnable parameters are the natural language
prompts at each layer. We stack two such layers, feeding the output of
one layer to the next. We call the stacked architecture a Deep Language
Network (DLN). We first show how to effectively perform prompt optimization
for a 1-Layer language network (DLN-1). We then show how to train 2-layer DLNs
(DLN-2), where two prompts must be learnt. We consider the output of the first
layer as a latent variable to marginalize, and devise a variational inference
algorithm for joint prompt training. A DLN-2 reaches higher performance than a
single layer, sometimes comparable to few-shot GPT-4 even when each LLM in the
network is smaller and less powerful. The DLN code is open source:
https://github.com/microsoft/deep-language-networks .