ChatPaper.aiChatPaper

Introspektive Hinweise: Großes Sprachmodell für kontextbezogene Entscheidungsfindung

Introspective Tips: Large Language Model for In-Context Decision Making

May 19, 2023
Autoren: Liting Chen, Lu Wang, Hang Dong, Yali Du, Jie Yan, Fangkai Yang, Shuang Li, Pu Zhao, Si Qin, Saravan Rajmohan, Qingwei Lin, Dongmei Zhang
cs.AI

Zusammenfassung

Das Aufkommen großer Sprachmodelle (LLMs) hat die natürliche Sprachverarbeitung erheblich beeinflusst und außergewöhnliche Ergebnisse in verschiedenen Aufgabenbereichen demonstriert. In dieser Studie verwenden wir „Introspective Tips“, um LLMs bei der Selbstoptimierung ihrer Entscheidungsfindung zu unterstützen. Durch die introspektive Untersuchung von Trajektorien verfeinert das LLM seine Strategie, indem es prägnante und wertvolle Tipps generiert. Unsere Methode verbessert die Leistung des Agenten in sowohl Few-Shot- als auch Zero-Shot-Lernsituationen, indem drei wesentliche Szenarien berücksichtigt werden: Lernen aus den vergangenen Erfahrungen des Agenten, Integration von Experten-Demonstrationen und Generalisierung über verschiedene Spiele hinweg. Wichtig ist, dass wir diese Verbesserungen erreichen, ohne die Parameter des LLMs feinzutunen; stattdessen passen wir den Prompt an, um Erkenntnisse aus den drei genannten Situationen zu verallgemeinern. Unser Framework unterstützt nicht nur, sondern betont auch den Vorteil des Einsatzes von LLMs bei der In-Context-Entscheidungsfindung. Experimente mit über 100 Spielen in TextWorld verdeutlichen die überlegene Leistung unseres Ansatzes.
English
The emergence of large language models (LLMs) has substantially influenced natural language processing, demonstrating exceptional results across various tasks. In this study, we employ ``Introspective Tips" to facilitate LLMs in self-optimizing their decision-making. By introspectively examining trajectories, LLM refines its policy by generating succinct and valuable tips. Our method enhances the agent's performance in both few-shot and zero-shot learning situations by considering three essential scenarios: learning from the agent's past experiences, integrating expert demonstrations, and generalizing across diverse games. Importantly, we accomplish these improvements without fine-tuning the LLM parameters; rather, we adjust the prompt to generalize insights from the three aforementioned situations. Our framework not only supports but also emphasizes the advantage of employing LLM in in-contxt decision-making. Experiments involving over 100 games in TextWorld illustrate the superior performance of our approach.
PDF10December 15, 2024