Могут ли большие языковые модели исследовать контекст?
Can large language models explore in-context?
March 22, 2024
Авторы: Akshay Krishnamurthy, Keegan Harris, Dylan J. Foster, Cyril Zhang, Aleksandrs Slivkins
cs.AI
Аннотация
Мы исследуем, насколько современные модели больших языков (LLM) могут заниматься исследованиями, являющимися ключевой способностью в обучении с подкреплением и принятии решений. Мы сосредотачиваемся на первоначальной производительности существующих LLM без вмешательства в обучение. Мы используем LLM в качестве агентов в простых средах многоруких бандитов, полностью определяя описание среды и историю взаимодействия в контексте, т.е. внутри подсказки LLM. Мы проводим эксперименты с GPT-3.5, GPT-4 и Llama2, используя различные дизайны подсказок, и обнаруживаем, что модели не надежно занимаются исследованиями без существенных вмешательств: i) Во всех наших экспериментах только одна конфигурация привела к удовлетворительному исследовательскому поведению: GPT-4 с цепочкой мыслей и внешне суммированной историей взаимодействия, представленной в виде достаточной статистики; ii) Все остальные конфигурации не привели к надежному исследовательскому поведению, включая те, у которых есть цепочка мыслей, но несуммированная история. Хотя эти результаты можно рассматривать положительно, они указывают на то, что внешняя суммаризация - что может быть невозможно в более сложных средах - важна для получения желаемого поведения от агентов LLM. Мы приходим к выводу, что для того чтобы дать возможность агентам, основанным на LLM, принимать решения в сложных средах, могут потребоваться нетривиальные алгоритмические вмешательства, такие как настройка или курирование набора данных.
English
We investigate the extent to which contemporary Large Language Models (LLMs)
can engage in exploration, a core capability in reinforcement learning and
decision making. We focus on native performance of existing LLMs, without
training interventions. We deploy LLMs as agents in simple multi-armed bandit
environments, specifying the environment description and interaction history
entirely in-context, i.e., within the LLM prompt. We experiment with GPT-3.5,
GPT-4, and Llama2, using a variety of prompt designs, and find that the models
do not robustly engage in exploration without substantial interventions: i)
Across all of our experiments, only one configuration resulted in satisfactory
exploratory behavior: GPT-4 with chain-of-thought reasoning and an externally
summarized interaction history, presented as sufficient statistics; ii) All
other configurations did not result in robust exploratory behavior, including
those with chain-of-thought reasoning but unsummarized history. Although these
findings can be interpreted positively, they suggest that external
summarization -- which may not be possible in more complex settings -- is
important for obtaining desirable behavior from LLM agents. We conclude that
non-trivial algorithmic interventions, such as fine-tuning or dataset curation,
may be required to empower LLM-based decision making agents in complex
settings.Summary
AI-Generated Summary