ChatPaper.aiChatPaper

Sur les transformations à travers le modèle de récompense, la mise à jour des paramètres et l'invite contextuelle

On the Transformations across Reward Model, Parameter Update, and In-Context Prompt

June 24, 2024
Auteurs: Deng Cai, Huayang Li, Tingchen Fu, Siheng Li, Weiwen Xu, Shuaiyi Li, Bowen Cao, Zhisong Zhang, Xinting Huang, Leyang Cui, Yan Wang, Lemao Liu, Taro Watanabe, Shuming Shi
cs.AI

Résumé

Malgré les capacités générales des grands modèles de langage pré-entraînés (LLMs), ceux-ci nécessitent encore une adaptation supplémentaire pour mieux répondre aux applications pratiques. Dans cet article, nous démontrons l'interchangeabilité de trois outils d'adaptation populaires et distincts : la mise à jour des paramètres, la modélisation des récompenses et l'incitation contextuelle (in-context prompting). Cette interchangeabilité établit un cadre triangulaire avec six directions de transformation, chacune facilitant une variété d'applications. Notre travail offre une vision holistique qui unifie de nombreuses études existantes et suggère des directions de recherche potentielles. Nous envisageons notre travail comme une feuille de route utile pour les recherches futures sur les LLMs.
English
Despite the general capabilities of pre-trained large language models (LLMs), they still need further adaptation to better serve practical applications. In this paper, we demonstrate the interchangeability of three popular and distinct adaptation tools: parameter updating, reward modeling, and in-context prompting. This interchangeability establishes a triangular framework with six transformation directions, each of which facilitates a variety of applications. Our work offers a holistic view that unifies numerous existing studies and suggests potential research directions. We envision our work as a useful roadmap for future research on LLMs.

Summary

AI-Generated Summary

PDF121November 29, 2024