ChatPaper.aiChatPaper

Tiefe Sprachnetzwerke: Gemeinsames Prompt-Training gestapelter LLMs mittels Variationsinferenz

Deep Language Networks: Joint Prompt Training of Stacked LLMs using Variational Inference

June 21, 2023
Autoren: Alessandro Sordoni, Xingdi Yuan, Marc-Alexandre Côté, Matheus Pereira, Adam Trischler, Ziang Xiao, Arian Hosseini, Friederike Niedtner, Nicolas Le Roux
cs.AI

Zusammenfassung

Wir betrachten große Sprachmodelle (LLMs) als stochastische Sprachschichten in einem Netzwerk, wobei die lernbaren Parameter die natürlichen Sprachprompts in jeder Schicht sind. Wir stapeln zwei solcher Schichten, indem wir die Ausgabe einer Schicht an die nächste weiterleiten. Wir nennen diese gestapelte Architektur ein Deep Language Network (DLN). Zunächst zeigen wir, wie man die Prompt-Optimierung für ein 1-Schicht-Sprachnetzwerk (DLN-1) effektiv durchführt. Anschließend zeigen wir, wie man 2-Schicht-DLNs (DLN-2) trainiert, bei denen zwei Prompts gelernt werden müssen. Wir betrachten die Ausgabe der ersten Schicht als eine latente Variable, die marginalisiert werden muss, und entwickeln einen Variationsinferenzalgorithmus für das gemeinsame Prompt-Training. Ein DLN-2 erreicht eine höhere Leistung als eine einzelne Schicht, manchmal vergleichbar mit Few-Shot GPT-4, selbst wenn jedes LLM im Netzwerk kleiner und weniger leistungsfähig ist. Der DLN-Code ist Open Source: https://github.com/microsoft/deep-language-networks.
English
We view large language models (LLMs) as stochastic language layers in a network, where the learnable parameters are the natural language prompts at each layer. We stack two such layers, feeding the output of one layer to the next. We call the stacked architecture a Deep Language Network (DLN). We first show how to effectively perform prompt optimization for a 1-Layer language network (DLN-1). We then show how to train 2-layer DLNs (DLN-2), where two prompts must be learnt. We consider the output of the first layer as a latent variable to marginalize, and devise a variational inference algorithm for joint prompt training. A DLN-2 reaches higher performance than a single layer, sometimes comparable to few-shot GPT-4 even when each LLM in the network is smaller and less powerful. The DLN code is open source: https://github.com/microsoft/deep-language-networks .
PDF140December 15, 2024