Интроспективные рекомендации: большие языковые модели для принятия решений в контексте
Introspective Tips: Large Language Model for In-Context Decision Making
May 19, 2023
Авторы: Liting Chen, Lu Wang, Hang Dong, Yali Du, Jie Yan, Fangkai Yang, Shuang Li, Pu Zhao, Si Qin, Saravan Rajmohan, Qingwei Lin, Dongmei Zhang
cs.AI
Аннотация
Появление крупных языковых моделей (LLM) существенно повлияло на область обработки естественного языка, продемонстрировав выдающиеся результаты в различных задачах. В данном исследовании мы используем «Интроспективные подсказки» для того, чтобы помочь LLM самостоятельно оптимизировать процесс принятия решений. Путем интроспективного анализа траекторий LLM уточняет свою стратегию, генерируя краткие и полезные подсказки. Наш метод улучшает производительность агента как в условиях обучения с малым количеством примеров (few-shot), так и в условиях обучения без примеров (zero-shot), учитывая три ключевых сценария: обучение на основе прошлого опыта агента, интеграция демонстраций экспертов и обобщение для различных игр. Важно отметить, что мы достигаем этих улучшений без тонкой настройки параметров LLM; вместо этого мы корректируем подсказки, чтобы обобщить инсайты из трех упомянутых ситуаций. Наша структура не только поддерживает, но и подчеркивает преимущество использования LLM для принятия решений в контексте. Эксперименты, проведенные на более чем 100 играх в TextWorld, демонстрируют превосходную производительность нашего подхода.
English
The emergence of large language models (LLMs) has substantially influenced
natural language processing, demonstrating exceptional results across various
tasks. In this study, we employ ``Introspective Tips" to facilitate LLMs in
self-optimizing their decision-making. By introspectively examining
trajectories, LLM refines its policy by generating succinct and valuable tips.
Our method enhances the agent's performance in both few-shot and zero-shot
learning situations by considering three essential scenarios: learning from the
agent's past experiences, integrating expert demonstrations, and generalizing
across diverse games. Importantly, we accomplish these improvements without
fine-tuning the LLM parameters; rather, we adjust the prompt to generalize
insights from the three aforementioned situations. Our framework not only
supports but also emphasizes the advantage of employing LLM in in-contxt
decision-making. Experiments involving over 100 games in TextWorld illustrate
the superior performance of our approach.