I modelli linguistici di grandi dimensioni possono esplorare in contesto?

Abstract

Indaghiamo fino a che punto i moderni Modelli Linguistici di Grande Dimensione (LLM) siano in grado di impegnarsi nell'esplorazione, una capacità fondamentale nell'apprendimento per rinforzo e nel processo decisionale. Ci concentriamo sulle prestazioni native degli LLM esistenti, senza interventi di addestramento. Utilizziamo gli LLM come agenti in semplici ambienti di bandit multi-braccio, specificando la descrizione dell'ambiente e la cronologia delle interazioni interamente in-context, ovvero all'interno del prompt dell'LLM. Sperimentiamo con GPT-3.5, GPT-4 e Llama2, utilizzando una varietà di progettazioni di prompt, e scopriamo che i modelli non si impegnano in modo robusto nell'esplorazione senza interventi sostanziali: i) In tutti i nostri esperimenti, solo una configurazione ha prodotto un comportamento esplorativo soddisfacente: GPT-4 con ragionamento a catena di pensiero e una cronologia delle interazioni riassunta esternamente, presentata come statistiche sufficienti; ii) Tutte le altre configurazioni non hanno prodotto un comportamento esplorativo robusto, comprese quelle con ragionamento a catena di pensiero ma con cronologia non riassunta. Sebbene questi risultati possano essere interpretati positivamente, suggeriscono che il riassunto esterno -- che potrebbe non essere possibile in contesti più complessi -- è importante per ottenere un comportamento desiderabile dagli agenti LLM. Concludiamo che potrebbero essere necessari interventi algoritmici non banali, come il fine-tuning o la cura del dataset, per potenziare gli agenti decisionali basati su LLM in contesti complessi.

English

We investigate the extent to which contemporary Large Language Models (LLMs) can engage in exploration, a core capability in reinforcement learning and decision making. We focus on native performance of existing LLMs, without training interventions. We deploy LLMs as agents in simple multi-armed bandit environments, specifying the environment description and interaction history entirely in-context, i.e., within the LLM prompt. We experiment with GPT-3.5, GPT-4, and Llama2, using a variety of prompt designs, and find that the models do not robustly engage in exploration without substantial interventions: i) Across all of our experiments, only one configuration resulted in satisfactory exploratory behavior: GPT-4 with chain-of-thought reasoning and an externally summarized interaction history, presented as sufficient statistics; ii) All other configurations did not result in robust exploratory behavior, including those with chain-of-thought reasoning but unsummarized history. Although these findings can be interpreted positively, they suggest that external summarization -- which may not be possible in more complex settings -- is important for obtaining desirable behavior from LLM agents. We conclude that non-trivial algorithmic interventions, such as fine-tuning or dataset curation, may be required to empower LLM-based decision making agents in complex settings.

I modelli linguistici di grandi dimensioni possono esplorare in contesto?

Can large language models explore in-context?

Abstract

Support