Sur les transformations à travers le modèle de récompense, la mise à jour des paramètres et l'invite contextuelle
On the Transformations across Reward Model, Parameter Update, and In-Context Prompt
June 24, 2024
Auteurs: Deng Cai, Huayang Li, Tingchen Fu, Siheng Li, Weiwen Xu, Shuaiyi Li, Bowen Cao, Zhisong Zhang, Xinting Huang, Leyang Cui, Yan Wang, Lemao Liu, Taro Watanabe, Shuming Shi
cs.AI
Résumé
Malgré les capacités générales des grands modèles de langage pré-entraînés (LLMs), ceux-ci nécessitent encore une adaptation supplémentaire pour mieux répondre aux applications pratiques. Dans cet article, nous démontrons l'interchangeabilité de trois outils d'adaptation populaires et distincts : la mise à jour des paramètres, la modélisation des récompenses et l'incitation contextuelle (in-context prompting). Cette interchangeabilité établit un cadre triangulaire avec six directions de transformation, chacune facilitant une variété d'applications. Notre travail offre une vision holistique qui unifie de nombreuses études existantes et suggère des directions de recherche potentielles. Nous envisageons notre travail comme une feuille de route utile pour les recherches futures sur les LLMs.
English
Despite the general capabilities of pre-trained large language models (LLMs),
they still need further adaptation to better serve practical applications. In
this paper, we demonstrate the interchangeability of three popular and distinct
adaptation tools: parameter updating, reward modeling, and in-context
prompting. This interchangeability establishes a triangular framework with six
transformation directions, each of which facilitates a variety of applications.
Our work offers a holistic view that unifies numerous existing studies and
suggests potential research directions. We envision our work as a useful
roadmap for future research on LLMs.Summary
AI-Generated Summary