ChatPaper.aiChatPaper

Diepe Taalnetwerken: Gezamenlijke Prompttraining van Gestapelde LLM's met behulp van Variational Inference

Deep Language Networks: Joint Prompt Training of Stacked LLMs using Variational Inference

June 21, 2023
Auteurs: Alessandro Sordoni, Xingdi Yuan, Marc-Alexandre Côté, Matheus Pereira, Adam Trischler, Ziang Xiao, Arian Hosseini, Friederike Niedtner, Nicolas Le Roux
cs.AI

Samenvatting

We beschouwen grote taalmodellen (LLMs) als stochastische taallagen in een netwerk, waarbij de leerbare parameters de natuurlijke taalprompts in elke laag zijn. We stapelen twee van dergelijke lagen, waarbij de uitvoer van de ene laag wordt doorgegeven aan de volgende. We noemen deze gestapelde architectuur een Deep Language Network (DLN). We laten eerst zien hoe je effectief promptoptimalisatie kunt uitvoeren voor een 1-laags taalmodel (DLN-1). Vervolgens tonen we aan hoe je 2-laagse DLNs (DLN-2) kunt trainen, waarbij twee prompts moeten worden geleerd. We beschouwen de uitvoer van de eerste laag als een latente variabele die gemarginaliseerd moet worden, en ontwikkelen een variational inference-algoritme voor het gezamenlijk trainen van prompts. Een DLN-2 bereikt een hogere prestaties dan een enkele laag, soms vergelijkbaar met few-shot GPT-4, zelfs wanneer elk LLM in het netwerk kleiner en minder krachtig is. De DLN-code is open source: https://github.com/microsoft/deep-language-networks.
English
We view large language models (LLMs) as stochastic language layers in a network, where the learnable parameters are the natural language prompts at each layer. We stack two such layers, feeding the output of one layer to the next. We call the stacked architecture a Deep Language Network (DLN). We first show how to effectively perform prompt optimization for a 1-Layer language network (DLN-1). We then show how to train 2-layer DLNs (DLN-2), where two prompts must be learnt. We consider the output of the first layer as a latent variable to marginalize, and devise a variational inference algorithm for joint prompt training. A DLN-2 reaches higher performance than a single layer, sometimes comparable to few-shot GPT-4 even when each LLM in the network is smaller and less powerful. The DLN code is open source: https://github.com/microsoft/deep-language-networks .
PDF140December 15, 2024