ChatPaper.aiChatPaper

О трансформациях между моделью вознаграждения, обновлением параметров и контекстным подсказками.

On the Transformations across Reward Model, Parameter Update, and In-Context Prompt

June 24, 2024
Авторы: Deng Cai, Huayang Li, Tingchen Fu, Siheng Li, Weiwen Xu, Shuaiyi Li, Bowen Cao, Zhisong Zhang, Xinting Huang, Leyang Cui, Yan Wang, Lemao Liu, Taro Watanabe, Shuming Shi
cs.AI

Аннотация

Несмотря на общие возможности предварительно обученных крупных языковых моделей (LLM), им все еще требуется дальнейшая адаптация для более эффективного использования в практических приложениях. В данной статье мы демонстрируем взаимозаменяемость трех популярных и различных инструментов адаптации: обновление параметров, моделирование вознаграждения и контекстное подсказывание. Эта взаимозаменяемость устанавливает треугольную структуру с шестью направлениями трансформации, каждое из которых облегчает ряд приложений. Наша работа предлагает целостное видение, которое объединяет множество существующих исследований и предлагает потенциальные направления исследований. Мы видим нашу работу как полезную карту пути для будущих исследований в области LLM.
English
Despite the general capabilities of pre-trained large language models (LLMs), they still need further adaptation to better serve practical applications. In this paper, we demonstrate the interchangeability of three popular and distinct adaptation tools: parameter updating, reward modeling, and in-context prompting. This interchangeability establishes a triangular framework with six transformation directions, each of which facilitates a variety of applications. Our work offers a holistic view that unifies numerous existing studies and suggests potential research directions. We envision our work as a useful roadmap for future research on LLMs.

Summary

AI-Generated Summary

PDF121November 29, 2024