ChatPaper.aiChatPaper

보상 모델, 파라미터 업데이트, 그리고 인컨텍스트 프롬프트 간의 변환에 관하여

On the Transformations across Reward Model, Parameter Update, and In-Context Prompt

June 24, 2024
저자: Deng Cai, Huayang Li, Tingchen Fu, Siheng Li, Weiwen Xu, Shuaiyi Li, Bowen Cao, Zhisong Zhang, Xinting Huang, Leyang Cui, Yan Wang, Lemao Liu, Taro Watanabe, Shuming Shi
cs.AI

초록

사전 학습된 대규모 언어 모델(LLM)의 일반적인 능력에도 불구하고, 실제 애플리케이션에 더 잘 적용하기 위해서는 추가적인 적응이 필요합니다. 본 논문에서는 세 가지 인기 있고 독특한 적응 도구인 파라미터 업데이트, 보상 모델링, 그리고 컨텍스트 내 프롬프팅의 상호 교환 가능성을 입증합니다. 이러한 상호 교환 가능성은 여섯 가지 변환 방향을 포함하는 삼각형 프레임워크를 구축하며, 각 방향은 다양한 애플리케이션을 촉진합니다. 우리의 연구는 기존의 수많은 연구를 통합하는 종합적인 관점을 제공하고 잠재적인 연구 방향을 제시합니다. 우리는 이 연구가 LLM에 대한 미래 연구를 위한 유용한 로드맵이 될 것으로 기대합니다.
English
Despite the general capabilities of pre-trained large language models (LLMs), they still need further adaptation to better serve practical applications. In this paper, we demonstrate the interchangeability of three popular and distinct adaptation tools: parameter updating, reward modeling, and in-context prompting. This interchangeability establishes a triangular framework with six transformation directions, each of which facilitates a variety of applications. Our work offers a holistic view that unifies numerous existing studies and suggests potential research directions. We envision our work as a useful roadmap for future research on LLMs.

Summary

AI-Generated Summary

PDF121November 29, 2024