Dicas Introspectivas: Modelo de Linguagem de Grande Escala para Tomada de Decisão em Contexto
Introspective Tips: Large Language Model for In-Context Decision Making
May 19, 2023
Autores: Liting Chen, Lu Wang, Hang Dong, Yali Du, Jie Yan, Fangkai Yang, Shuang Li, Pu Zhao, Si Qin, Saravan Rajmohan, Qingwei Lin, Dongmei Zhang
cs.AI
Resumo
O surgimento de grandes modelos de linguagem (LLMs, do inglês *Large Language Models*) influenciou substancialmente o processamento de linguagem natural, demonstrando resultados excepcionais em diversas tarefas. Neste estudo, empregamos "Dicas Introspectivas" para facilitar que os LLMs otimizem sua própria tomada de decisões. Ao examinar introspectivamente trajetórias, o LLM refina sua política gerando dicas sucintas e valiosas. Nosso método melhora o desempenho do agente tanto em situações de aprendizado *few-shot* quanto *zero-shot*, considerando três cenários essenciais: aprender com as experiências passadas do agente, integrar demonstrações de especialistas e generalizar entre diversos jogos. Importante destacar que alcançamos essas melhorias sem ajustar os parâmetros do LLM; em vez disso, adaptamos o *prompt* para generalizar insights a partir dos três cenários mencionados. Nosso framework não apenas apoia, mas também enfatiza a vantagem de empregar LLMs na tomada de decisões em contexto. Experimentos envolvendo mais de 100 jogos no TextWorld ilustram o desempenho superior da nossa abordagem.
English
The emergence of large language models (LLMs) has substantially influenced
natural language processing, demonstrating exceptional results across various
tasks. In this study, we employ ``Introspective Tips" to facilitate LLMs in
self-optimizing their decision-making. By introspectively examining
trajectories, LLM refines its policy by generating succinct and valuable tips.
Our method enhances the agent's performance in both few-shot and zero-shot
learning situations by considering three essential scenarios: learning from the
agent's past experiences, integrating expert demonstrations, and generalizing
across diverse games. Importantly, we accomplish these improvements without
fine-tuning the LLM parameters; rather, we adjust the prompt to generalize
insights from the three aforementioned situations. Our framework not only
supports but also emphasizes the advantage of employing LLM in in-contxt
decision-making. Experiments involving over 100 games in TextWorld illustrate
the superior performance of our approach.