Обучение совместному декодированию с несколькими языковыми моделями
Learning to Decode Collaboratively with Multiple Language Models
March 6, 2024
Авторы: Shannon Zejiang Shen, Hunter Lang, Bailin Wang, Yoon Kim, David Sontag
cs.AI
Аннотация
Мы предлагаем метод обучения нескольких крупных языковых моделей (LLM) сотрудничать, чередуя их генерации на уровне токенов. Мы моделируем решение о том, какая LLM генерирует следующий токен, как скрытую переменную. Оптимизируя предельное правдоподобие обучающего набора в рамках нашей модели скрытой переменной, базовая LLM автоматически учится, когда самой генерировать, а когда вызывать одну из "помощников" для генерации, все это без прямого надзора. Сотрудничество на уровне токенов во время декодирования позволяет объединить экспертизу каждой модели способом, наиболее подходящим для конкретной задачи. Наше совместное декодирование особенно полезно в междоменных сценариях, где базовая LLM-специалист обучается вызывать модели экспертов по доменам. На задачах следования инструкциям, вопросно-ответных задачах, и задачах рассуждения мы показываем, что производительность совместной системы превосходит производительность индивидуальных моделей. Через качественный анализ изученных скрытых решений мы показываем, что модели, обученные нашим методом, демонстрируют несколько интересных паттернов сотрудничества, например, заполнение шаблонов. Наш код доступен по ссылке https://github.com/clinicalml/co-llm.
English
We propose a method to teach multiple large language models (LLM) to
collaborate by interleaving their generations at the token level. We model the
decision of which LLM generates the next token as a latent variable. By
optimizing the marginal likelihood of a training set under our latent variable
model, the base LLM automatically learns when to generate itself and when to
call on one of the ``assistant'' language models to generate, all without
direct supervision. Token-level collaboration during decoding allows for a
fusion of each model's expertise in a manner tailored to the specific task at
hand. Our collaborative decoding is especially useful in cross-domain settings
where a generalist base LLM learns to invoke domain expert models. On
instruction-following, domain-specific QA, and reasoning tasks, we show that
the performance of the joint system exceeds that of the individual models.
Through qualitative analysis of the learned latent decisions, we show models
trained with our method exhibit several interesting collaboration patterns,
e.g., template-filling. Our code is available at
https://github.com/clinicalml/co-llm.