ChatPaper.aiChatPaper

Réseaux de Langage Profond : Entraînement Conjoint par Prompt de Modèles de Langage Empilés utilisant l'Inférence Variationnelle

Deep Language Networks: Joint Prompt Training of Stacked LLMs using Variational Inference

June 21, 2023
Auteurs: Alessandro Sordoni, Xingdi Yuan, Marc-Alexandre Côté, Matheus Pereira, Adam Trischler, Ziang Xiao, Arian Hosseini, Friederike Niedtner, Nicolas Le Roux
cs.AI

Résumé

Nous considérons les grands modèles de langage (LLMs) comme des couches de langage stochastiques dans un réseau, où les paramètres apprenables sont les prompts en langage naturel à chaque couche. Nous empilons deux de ces couches, en alimentant la sortie d'une couche à la suivante. Nous appelons cette architecture empilée un Réseau de Langage Profond (Deep Language Network, DLN). Nous montrons d'abord comment optimiser efficacement les prompts pour un réseau de langage à une couche (DLN-1). Ensuite, nous démontrons comment entraîner des DLNs à deux couches (DLN-2), où deux prompts doivent être appris. Nous considérons la sortie de la première couche comme une variable latente à marginaliser, et nous concevons un algorithme d'inférence variationnelle pour l'entraînement conjoint des prompts. Un DLN-2 atteint des performances supérieures à une seule couche, parfois comparables à celles de GPT-4 en few-shot, même lorsque chaque LLM dans le réseau est plus petit et moins puissant. Le code du DLN est open source : https://github.com/microsoft/deep-language-networks.
English
We view large language models (LLMs) as stochastic language layers in a network, where the learnable parameters are the natural language prompts at each layer. We stack two such layers, feeding the output of one layer to the next. We call the stacked architecture a Deep Language Network (DLN). We first show how to effectively perform prompt optimization for a 1-Layer language network (DLN-1). We then show how to train 2-layer DLNs (DLN-2), where two prompts must be learnt. We consider the output of the first layer as a latent variable to marginalize, and devise a variational inference algorithm for joint prompt training. A DLN-2 reaches higher performance than a single layer, sometimes comparable to few-shot GPT-4 even when each LLM in the network is smaller and less powerful. The DLN code is open source: https://github.com/microsoft/deep-language-networks .
PDF140December 15, 2024