ChatPaper.aiChatPaper

Conseils introspectifs : Modèle de langage de grande taille pour la prise de décision en contexte

Introspective Tips: Large Language Model for In-Context Decision Making

May 19, 2023
Auteurs: Liting Chen, Lu Wang, Hang Dong, Yali Du, Jie Yan, Fangkai Yang, Shuang Li, Pu Zhao, Si Qin, Saravan Rajmohan, Qingwei Lin, Dongmei Zhang
cs.AI

Résumé

L'émergence des grands modèles de langage (LLMs) a considérablement influencé le traitement du langage naturel, démontrant des résultats exceptionnels sur diverses tâches. Dans cette étude, nous utilisons des « conseils introspectifs » pour permettre aux LLMs d'optimiser leur prise de décision de manière autonome. En examinant de manière introspective les trajectoires, le LLM affine sa politique en générant des conseils succincts et pertinents. Notre méthode améliore les performances de l'agent dans des situations d'apprentissage few-shot et zero-shot en considérant trois scénarios essentiels : l'apprentissage à partir des expériences passées de l'agent, l'intégration de démonstrations expertes, et la généralisation à travers divers jeux. Il est important de noter que nous parvenons à ces améliorations sans ajuster les paramètres du LLM ; nous modifions plutôt l'invite pour généraliser les insights issus des trois situations mentionnées. Notre cadre de travail non seulement soutient, mais met également en avant l'avantage d'utiliser les LLMs dans la prise de décision en contexte. Des expériences impliquant plus de 100 jeux dans TextWorld illustrent la performance supérieure de notre approche.
English
The emergence of large language models (LLMs) has substantially influenced natural language processing, demonstrating exceptional results across various tasks. In this study, we employ ``Introspective Tips" to facilitate LLMs in self-optimizing their decision-making. By introspectively examining trajectories, LLM refines its policy by generating succinct and valuable tips. Our method enhances the agent's performance in both few-shot and zero-shot learning situations by considering three essential scenarios: learning from the agent's past experiences, integrating expert demonstrations, and generalizing across diverse games. Importantly, we accomplish these improvements without fine-tuning the LLM parameters; rather, we adjust the prompt to generalize insights from the three aforementioned situations. Our framework not only supports but also emphasizes the advantage of employing LLM in in-contxt decision-making. Experiments involving over 100 games in TextWorld illustrate the superior performance of our approach.
PDF10December 15, 2024