ChatPaper.aiChatPaper

Redes de Lenguaje Profundo: Entrenamiento Conjunto de LLMs Apilados mediante Inferencia Variacional

Deep Language Networks: Joint Prompt Training of Stacked LLMs using Variational Inference

June 21, 2023
Autores: Alessandro Sordoni, Xingdi Yuan, Marc-Alexandre Côté, Matheus Pereira, Adam Trischler, Ziang Xiao, Arian Hosseini, Friederike Niedtner, Nicolas Le Roux
cs.AI

Resumen

Consideramos a los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) como capas estocásticas de lenguaje en una red, donde los parámetros aprendibles son los prompts de lenguaje natural en cada capa. Apilamos dos de estas capas, alimentando la salida de una capa a la siguiente. Denominamos a esta arquitectura apilada como Red de Lenguaje Profunda (DLN, por sus siglas en inglés). Primero demostramos cómo optimizar eficazmente los prompts para una red de lenguaje de 1 capa (DLN-1). Luego, mostramos cómo entrenar DLNs de 2 capas (DLN-2), donde se deben aprender dos prompts. Consideramos la salida de la primera capa como una variable latente a marginalizar y diseñamos un algoritmo de inferencia variacional para el entrenamiento conjunto de prompts. Una DLN-2 alcanza un rendimiento superior al de una sola capa, a veces comparable al de GPT-4 con pocos ejemplos, incluso cuando cada LLM en la red es más pequeño y menos potente. El código de la DLN es de código abierto: https://github.com/microsoft/deep-language-networks.
English
We view large language models (LLMs) as stochastic language layers in a network, where the learnable parameters are the natural language prompts at each layer. We stack two such layers, feeding the output of one layer to the next. We call the stacked architecture a Deep Language Network (DLN). We first show how to effectively perform prompt optimization for a 1-Layer language network (DLN-1). We then show how to train 2-layer DLNs (DLN-2), where two prompts must be learnt. We consider the output of the first layer as a latent variable to marginalize, and devise a variational inference algorithm for joint prompt training. A DLN-2 reaches higher performance than a single layer, sometimes comparable to few-shot GPT-4 even when each LLM in the network is smaller and less powerful. The DLN code is open source: https://github.com/microsoft/deep-language-networks .
PDF140December 15, 2024