Nas Transformações entre Modelo de Recompensa, Atualização de Parâmetros e Prompt Contextual
On the Transformations across Reward Model, Parameter Update, and In-Context Prompt
June 24, 2024
Autores: Deng Cai, Huayang Li, Tingchen Fu, Siheng Li, Weiwen Xu, Shuaiyi Li, Bowen Cao, Zhisong Zhang, Xinting Huang, Leyang Cui, Yan Wang, Lemao Liu, Taro Watanabe, Shuming Shi
cs.AI
Resumo
Apesar das capacidades gerais dos modelos de linguagem grandes pré-treinados (LLMs), eles ainda precisam de uma adaptação adicional para melhor servir aplicações práticas. Neste artigo, demonstramos a intercambiabilidade de três ferramentas populares e distintas de adaptação: atualização de parâmetros, modelagem de recompensas e fornecimento de contexto. Essa intercambiabilidade estabelece um framework triangular com seis direções de transformação, cada uma das quais facilita uma variedade de aplicações. Nosso trabalho oferece uma visão holística que unifica numerosos estudos existentes e sugere possíveis direções de pesquisa. Visualizamos nosso trabalho como um roadmap útil para futuras pesquisas sobre LLMs.
English
Despite the general capabilities of pre-trained large language models (LLMs),
they still need further adaptation to better serve practical applications. In
this paper, we demonstrate the interchangeability of three popular and distinct
adaptation tools: parameter updating, reward modeling, and in-context
prompting. This interchangeability establishes a triangular framework with six
transformation directions, each of which facilitates a variety of applications.
Our work offers a holistic view that unifies numerous existing studies and
suggests potential research directions. We envision our work as a useful
roadmap for future research on LLMs.