ChatPaper.aiChatPaper

Dicas Introspectivas: Modelo de Linguagem de Grande Escala para Tomada de Decisão em Contexto

Introspective Tips: Large Language Model for In-Context Decision Making

May 19, 2023
Autores: Liting Chen, Lu Wang, Hang Dong, Yali Du, Jie Yan, Fangkai Yang, Shuang Li, Pu Zhao, Si Qin, Saravan Rajmohan, Qingwei Lin, Dongmei Zhang
cs.AI

Resumo

O surgimento de grandes modelos de linguagem (LLMs, do inglês *Large Language Models*) influenciou substancialmente o processamento de linguagem natural, demonstrando resultados excepcionais em diversas tarefas. Neste estudo, empregamos "Dicas Introspectivas" para facilitar que os LLMs otimizem sua própria tomada de decisões. Ao examinar introspectivamente trajetórias, o LLM refina sua política gerando dicas sucintas e valiosas. Nosso método melhora o desempenho do agente tanto em situações de aprendizado *few-shot* quanto *zero-shot*, considerando três cenários essenciais: aprender com as experiências passadas do agente, integrar demonstrações de especialistas e generalizar entre diversos jogos. Importante destacar que alcançamos essas melhorias sem ajustar os parâmetros do LLM; em vez disso, adaptamos o *prompt* para generalizar insights a partir dos três cenários mencionados. Nosso framework não apenas apoia, mas também enfatiza a vantagem de empregar LLMs na tomada de decisões em contexto. Experimentos envolvendo mais de 100 jogos no TextWorld ilustram o desempenho superior da nossa abordagem.
English
The emergence of large language models (LLMs) has substantially influenced natural language processing, demonstrating exceptional results across various tasks. In this study, we employ ``Introspective Tips" to facilitate LLMs in self-optimizing their decision-making. By introspectively examining trajectories, LLM refines its policy by generating succinct and valuable tips. Our method enhances the agent's performance in both few-shot and zero-shot learning situations by considering three essential scenarios: learning from the agent's past experiences, integrating expert demonstrations, and generalizing across diverse games. Importantly, we accomplish these improvements without fine-tuning the LLM parameters; rather, we adjust the prompt to generalize insights from the three aforementioned situations. Our framework not only supports but also emphasizes the advantage of employing LLM in in-contxt decision-making. Experiments involving over 100 games in TextWorld illustrate the superior performance of our approach.
PDF10February 8, 2026