¿Pueden los modelos de lenguaje de gran escala explorar en contexto?Can large language models explore in-context?
Investigamos hasta qué punto los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) contemporáneos pueden participar en la exploración, una capacidad fundamental en el aprendizaje por refuerzo y la toma de decisiones. Nos centramos en el rendimiento nativo de los LLMs existentes, sin intervenciones de entrenamiento. Desplegamos LLMs como agentes en entornos simples de bandidos multi-brazo, especificando la descripción del entorno y el historial de interacción completamente en contexto, es decir, dentro del prompt del LLM. Experimentamos con GPT-3.5, GPT-4 y Llama2, utilizando una variedad de diseños de prompts, y encontramos que los modelos no participan de manera robusta en la exploración sin intervenciones sustanciales: i) En todos nuestros experimentos, solo una configuración resultó en un comportamiento exploratorio satisfactorio: GPT-4 con razonamiento en cadena de pensamiento y un historial de interacción resumido externamente, presentado como estadísticas suficientes; ii) Todas las demás configuraciones no resultaron en un comportamiento exploratorio robusto, incluidas aquellas con razonamiento en cadena de pensamiento pero con historial no resumido. Aunque estos hallazgos pueden interpretarse positivamente, sugieren que la resumización externa —que puede no ser posible en entornos más complejos— es importante para obtener un comportamiento deseable de los agentes basados en LLMs. Concluimos que pueden ser necesarias intervenciones algorítmicas no triviales, como el ajuste fino o la curación de conjuntos de datos, para empoderar a los agentes de toma de decisiones basados en LLMs en entornos complejos.