Sur les transformations à travers le modèle de récompense, la mise à jour des paramètres et l'invite contextuelle

papers.abstract

Malgré les capacités générales des grands modèles de langage pré-entraînés (LLMs), ceux-ci nécessitent encore une adaptation supplémentaire pour mieux répondre aux applications pratiques. Dans cet article, nous démontrons l'interchangeabilité de trois outils d'adaptation populaires et distincts : la mise à jour des paramètres, la modélisation des récompenses et l'incitation contextuelle (in-context prompting). Cette interchangeabilité établit un cadre triangulaire avec six directions de transformation, chacune facilitant une variété d'applications. Notre travail offre une vision holistique qui unifie de nombreuses études existantes et suggère des directions de recherche potentielles. Nous envisageons notre travail comme une feuille de route utile pour les recherches futures sur les LLMs.

English

Despite the general capabilities of pre-trained large language models (LLMs), they still need further adaptation to better serve practical applications. In this paper, we demonstrate the interchangeability of three popular and distinct adaptation tools: parameter updating, reward modeling, and in-context prompting. This interchangeability establishes a triangular framework with six transformation directions, each of which facilitates a variety of applications. Our work offers a holistic view that unifies numerous existing studies and suggests potential research directions. We envision our work as a useful roadmap for future research on LLMs.

Sur les transformations à travers le modèle de récompense, la mise à jour des paramètres et l'invite contextuelle

On the Transformations across Reward Model, Parameter Update, and In-Context Prompt

papers.abstract

Support