ChatPaper.aiChatPaper

Sulle trasformazioni tra Modello di Ricompensa, Aggiornamento dei Parametri e Prompt In-Contesto

On the Transformations across Reward Model, Parameter Update, and In-Context Prompt

June 24, 2024
Autori: Deng Cai, Huayang Li, Tingchen Fu, Siheng Li, Weiwen Xu, Shuaiyi Li, Bowen Cao, Zhisong Zhang, Xinting Huang, Leyang Cui, Yan Wang, Lemao Liu, Taro Watanabe, Shuming Shi
cs.AI

Abstract

Nonostante le capacità generali dei grandi modelli linguistici pre-addestrati (LLM), essi necessitano ancora di ulteriori adattamenti per servire al meglio le applicazioni pratiche. In questo articolo, dimostriamo l'intercambiabilità di tre strumenti di adattamento popolari e distinti: l'aggiornamento dei parametri, la modellazione delle ricompense e il prompting in-context. Questa intercambiabilità stabilisce un framework triangolare con sei direzioni di trasformazione, ognuna delle quali facilita una varietà di applicazioni. Il nostro lavoro offre una visione olistica che unifica numerosi studi esistenti e suggerisce potenziali direzioni di ricerca. Immaginiamo il nostro lavoro come una mappa utile per la ricerca futura sugli LLM.
English
Despite the general capabilities of pre-trained large language models (LLMs), they still need further adaptation to better serve practical applications. In this paper, we demonstrate the interchangeability of three popular and distinct adaptation tools: parameter updating, reward modeling, and in-context prompting. This interchangeability establishes a triangular framework with six transformation directions, each of which facilitates a variety of applications. Our work offers a holistic view that unifies numerous existing studies and suggests potential research directions. We envision our work as a useful roadmap for future research on LLMs.
PDF131February 8, 2026