ChatPaper.aiChatPaper

¿Pueden los modelos de lenguaje de gran escala explorar en contexto?

Can large language models explore in-context?

March 22, 2024
Autores: Akshay Krishnamurthy, Keegan Harris, Dylan J. Foster, Cyril Zhang, Aleksandrs Slivkins
cs.AI

Resumen

Investigamos hasta qué punto los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) contemporáneos pueden participar en la exploración, una capacidad fundamental en el aprendizaje por refuerzo y la toma de decisiones. Nos centramos en el rendimiento nativo de los LLMs existentes, sin intervenciones de entrenamiento. Desplegamos LLMs como agentes en entornos simples de bandidos multi-brazo, especificando la descripción del entorno y el historial de interacción completamente en contexto, es decir, dentro del prompt del LLM. Experimentamos con GPT-3.5, GPT-4 y Llama2, utilizando una variedad de diseños de prompts, y encontramos que los modelos no participan de manera robusta en la exploración sin intervenciones sustanciales: i) En todos nuestros experimentos, solo una configuración resultó en un comportamiento exploratorio satisfactorio: GPT-4 con razonamiento en cadena de pensamiento y un historial de interacción resumido externamente, presentado como estadísticas suficientes; ii) Todas las demás configuraciones no resultaron en un comportamiento exploratorio robusto, incluidas aquellas con razonamiento en cadena de pensamiento pero con historial no resumido. Aunque estos hallazgos pueden interpretarse positivamente, sugieren que la resumización externa —que puede no ser posible en entornos más complejos— es importante para obtener un comportamiento deseable de los agentes basados en LLMs. Concluimos que pueden ser necesarias intervenciones algorítmicas no triviales, como el ajuste fino o la curación de conjuntos de datos, para empoderar a los agentes de toma de decisiones basados en LLMs en entornos complejos.
English
We investigate the extent to which contemporary Large Language Models (LLMs) can engage in exploration, a core capability in reinforcement learning and decision making. We focus on native performance of existing LLMs, without training interventions. We deploy LLMs as agents in simple multi-armed bandit environments, specifying the environment description and interaction history entirely in-context, i.e., within the LLM prompt. We experiment with GPT-3.5, GPT-4, and Llama2, using a variety of prompt designs, and find that the models do not robustly engage in exploration without substantial interventions: i) Across all of our experiments, only one configuration resulted in satisfactory exploratory behavior: GPT-4 with chain-of-thought reasoning and an externally summarized interaction history, presented as sufficient statistics; ii) All other configurations did not result in robust exploratory behavior, including those with chain-of-thought reasoning but unsummarized history. Although these findings can be interpreted positively, they suggest that external summarization -- which may not be possible in more complex settings -- is important for obtaining desirable behavior from LLM agents. We conclude that non-trivial algorithmic interventions, such as fine-tuning or dataset curation, may be required to empower LLM-based decision making agents in complex settings.

Summary

AI-Generated Summary

PDF342December 15, 2024