Introspectieve Tips: Taalmodel op Schaal voor In-Context Besluitvorming
Introspective Tips: Large Language Model for In-Context Decision Making
May 19, 2023
Auteurs: Liting Chen, Lu Wang, Hang Dong, Yali Du, Jie Yan, Fangkai Yang, Shuang Li, Pu Zhao, Si Qin, Saravan Rajmohan, Qingwei Lin, Dongmei Zhang
cs.AI
Samenvatting
De opkomst van grote taalmodelen (LLMs) heeft een aanzienlijke invloed gehad op natuurlijke taalverwerking, waarbij uitzonderlijke resultaten zijn aangetoond voor diverse taken. In deze studie gebruiken we ``Introspectieve Tips'' om LLMs te ondersteunen bij het zelfoptimaliseren van hun besluitvorming. Door trajecten introspectief te onderzoeken, verfijnt het LLM zijn beleid door beknopte en waardevolle tips te genereren. Onze methode verbetert de prestaties van de agent in zowel few-shot als zero-shot leersituaties door drie essentiële scenario's te overwegen: leren van eerdere ervaringen van de agent, het integreren van expertdemonstraties en generaliseren over diverse spellen. Belangrijk is dat we deze verbeteringen bereiken zonder de parameters van het LLM te fine-tunen; in plaats daarvan passen we de prompt aan om inzichten te generaliseren uit de drie genoemde situaties. Ons framework ondersteunt niet alleen, maar benadrukt ook het voordeel van het inzetten van LLM bij in-context besluitvorming. Experimenten met meer dan 100 spellen in TextWorld illustreren de superieure prestaties van onze aanpak.
English
The emergence of large language models (LLMs) has substantially influenced
natural language processing, demonstrating exceptional results across various
tasks. In this study, we employ ``Introspective Tips" to facilitate LLMs in
self-optimizing their decision-making. By introspectively examining
trajectories, LLM refines its policy by generating succinct and valuable tips.
Our method enhances the agent's performance in both few-shot and zero-shot
learning situations by considering three essential scenarios: learning from the
agent's past experiences, integrating expert demonstrations, and generalizing
across diverse games. Importantly, we accomplish these improvements without
fine-tuning the LLM parameters; rather, we adjust the prompt to generalize
insights from the three aforementioned situations. Our framework not only
supports but also emphasizes the advantage of employing LLM in in-contxt
decision-making. Experiments involving over 100 games in TextWorld illustrate
the superior performance of our approach.