ChatPaper.aiChatPaper

Глубокие языковые сети: Совместное обучение стекированных языковых моделей с использованием вариационного вывода через промпты

Deep Language Networks: Joint Prompt Training of Stacked LLMs using Variational Inference

June 21, 2023
Авторы: Alessandro Sordoni, Xingdi Yuan, Marc-Alexandre Côté, Matheus Pereira, Adam Trischler, Ziang Xiao, Arian Hosseini, Friederike Niedtner, Nicolas Le Roux
cs.AI

Аннотация

Мы рассматриваем большие языковые модели (LLMs) как стохастические языковые слои в сети, где обучаемыми параметрами являются естественно-языковые промты на каждом слое. Мы объединяем два таких слоя, передавая выход одного слоя на вход следующего. Мы называем эту архитектуру Глубокой Языковой Сетью (Deep Language Network, DLN). Сначала мы показываем, как эффективно выполнять оптимизацию промтов для однослойной языковой сети (DLN-1). Затем мы демонстрируем, как обучать двухслойные DLN (DLN-2), где необходимо обучать два промта. Мы рассматриваем выход первого слоя как латентную переменную, которую нужно маргинализировать, и разрабатываем алгоритм вариационного вывода для совместного обучения промтов. DLN-2 достигает более высокой производительности, чем однослойная сеть, иногда сопоставимой с few-shot GPT-4, даже если каждая LLM в сети меньше и менее мощная. Код DLN является открытым: https://github.com/microsoft/deep-language-networks.
English
We view large language models (LLMs) as stochastic language layers in a network, where the learnable parameters are the natural language prompts at each layer. We stack two such layers, feeding the output of one layer to the next. We call the stacked architecture a Deep Language Network (DLN). We first show how to effectively perform prompt optimization for a 1-Layer language network (DLN-1). We then show how to train 2-layer DLNs (DLN-2), where two prompts must be learnt. We consider the output of the first layer as a latent variable to marginalize, and devise a variational inference algorithm for joint prompt training. A DLN-2 reaches higher performance than a single layer, sometimes comparable to few-shot GPT-4 even when each LLM in the network is smaller and less powerful. The DLN code is open source: https://github.com/microsoft/deep-language-networks .
PDF140December 15, 2024