Sobre las transformaciones a través del modelo de recompensa, la actualización de parámetros y el prompt en contexto
On the Transformations across Reward Model, Parameter Update, and In-Context Prompt
June 24, 2024
Autores: Deng Cai, Huayang Li, Tingchen Fu, Siheng Li, Weiwen Xu, Shuaiyi Li, Bowen Cao, Zhisong Zhang, Xinting Huang, Leyang Cui, Yan Wang, Lemao Liu, Taro Watanabe, Shuming Shi
cs.AI
Resumen
A pesar de las capacidades generales de los modelos de lenguaje preentrenados de gran escala (LLMs, por sus siglas en inglés), aún requieren una mayor adaptación para servir mejor a aplicaciones prácticas. En este artículo, demostramos la intercambiabilidad de tres herramientas de adaptación populares y distintas: actualización de parámetros, modelado de recompensas y prompting en contexto. Esta intercambiabilidad establece un marco triangular con seis direcciones de transformación, cada una de las cuales facilita una variedad de aplicaciones. Nuestro trabajo ofrece una visión holística que unifica numerosos estudios existentes y sugiere posibles direcciones de investigación. Visualizamos nuestro trabajo como una hoja de ruta útil para futuras investigaciones sobre LLMs.
English
Despite the general capabilities of pre-trained large language models (LLMs),
they still need further adaptation to better serve practical applications. In
this paper, we demonstrate the interchangeability of three popular and distinct
adaptation tools: parameter updating, reward modeling, and in-context
prompting. This interchangeability establishes a triangular framework with six
transformation directions, each of which facilitates a variety of applications.
Our work offers a holistic view that unifies numerous existing studies and
suggests potential research directions. We envision our work as a useful
roadmap for future research on LLMs.Summary
AI-Generated Summary