ChatPaper.aiChatPaper

Introspectieve Tips: Taalmodel op Schaal voor In-Context Besluitvorming

Introspective Tips: Large Language Model for In-Context Decision Making

May 19, 2023
Auteurs: Liting Chen, Lu Wang, Hang Dong, Yali Du, Jie Yan, Fangkai Yang, Shuang Li, Pu Zhao, Si Qin, Saravan Rajmohan, Qingwei Lin, Dongmei Zhang
cs.AI

Samenvatting

De opkomst van grote taalmodelen (LLMs) heeft een aanzienlijke invloed gehad op natuurlijke taalverwerking, waarbij uitzonderlijke resultaten zijn aangetoond voor diverse taken. In deze studie gebruiken we ``Introspectieve Tips'' om LLMs te ondersteunen bij het zelfoptimaliseren van hun besluitvorming. Door trajecten introspectief te onderzoeken, verfijnt het LLM zijn beleid door beknopte en waardevolle tips te genereren. Onze methode verbetert de prestaties van de agent in zowel few-shot als zero-shot leersituaties door drie essentiële scenario's te overwegen: leren van eerdere ervaringen van de agent, het integreren van expertdemonstraties en generaliseren over diverse spellen. Belangrijk is dat we deze verbeteringen bereiken zonder de parameters van het LLM te fine-tunen; in plaats daarvan passen we de prompt aan om inzichten te generaliseren uit de drie genoemde situaties. Ons framework ondersteunt niet alleen, maar benadrukt ook het voordeel van het inzetten van LLM bij in-context besluitvorming. Experimenten met meer dan 100 spellen in TextWorld illustreren de superieure prestaties van onze aanpak.
English
The emergence of large language models (LLMs) has substantially influenced natural language processing, demonstrating exceptional results across various tasks. In this study, we employ ``Introspective Tips" to facilitate LLMs in self-optimizing their decision-making. By introspectively examining trajectories, LLM refines its policy by generating succinct and valuable tips. Our method enhances the agent's performance in both few-shot and zero-shot learning situations by considering three essential scenarios: learning from the agent's past experiences, integrating expert demonstrations, and generalizing across diverse games. Importantly, we accomplish these improvements without fine-tuning the LLM parameters; rather, we adjust the prompt to generalize insights from the three aforementioned situations. Our framework not only supports but also emphasizes the advantage of employing LLM in in-contxt decision-making. Experiments involving over 100 games in TextWorld illustrate the superior performance of our approach.
PDF10February 8, 2026