ChatPaper.aiChatPaper

報酬モデル、パラメータ更新、およびインコンテキストプロンプト間の変換について

On the Transformations across Reward Model, Parameter Update, and In-Context Prompt

June 24, 2024
著者: Deng Cai, Huayang Li, Tingchen Fu, Siheng Li, Weiwen Xu, Shuaiyi Li, Bowen Cao, Zhisong Zhang, Xinting Huang, Leyang Cui, Yan Wang, Lemao Liu, Taro Watanabe, Shuming Shi
cs.AI

要旨

事前学習済みの大規模言語モデル(LLM)の一般的な能力にもかかわらず、実用的なアプリケーションにより適応するためには、さらなる適応が必要です。本論文では、パラメータ更新、報酬モデリング、およびインコンテキストプロンプティングという3つの人気かつ異なる適応ツールの相互交換性を実証します。この相互交換性は、6つの変換方向を持つ三角形のフレームワークを確立し、それぞれが多様なアプリケーションを促進します。私たちの研究は、数多くの既存研究を統合し、潜在的な研究方向を示す包括的な視点を提供します。私たちは、この研究がLLMの将来の研究にとって有用なロードマップとなることを期待しています。
English
Despite the general capabilities of pre-trained large language models (LLMs), they still need further adaptation to better serve practical applications. In this paper, we demonstrate the interchangeability of three popular and distinct adaptation tools: parameter updating, reward modeling, and in-context prompting. This interchangeability establishes a triangular framework with six transformation directions, each of which facilitates a variety of applications. Our work offers a holistic view that unifies numerous existing studies and suggests potential research directions. We envision our work as a useful roadmap for future research on LLMs.

Summary

AI-Generated Summary

PDF121November 29, 2024