Fracaso en la exploración: Modelos de lenguaje en tareas interactivas

Resumen

Evaluamos modelos de lenguaje en su capacidad para explorar entornos interactivos con un presupuesto de interacción limitado. Introducimos tres tareas paramétricas con dificultad de exploración controlable, que abarcan entornos continuos y discretos. En los modelos más avanzados, encontramos una subexploración sistemática y soluciones subóptimas, con un rendimiento a menudo significativamente peor que el de líneas base heurísticas simples de exploración-explotación, y que escala débilmente a medida que aumenta el presupuesto. Finalmente, estudiamos dos intervenciones ligeras: dividir un presupuesto fijo en ejecuciones paralelas, lo que sorprendentemente mejora el rendimiento a pesar de un resultado teórico de no-ganancia para nuestras tareas, y resumir periódicamente el historial de interacción, lo que preserva descubrimientos clave y mejora aún más la exploración.

English

We evaluate language models on their ability to explore interactive environments under a limited interaction budget. We introduce three parametric tasks with controllable exploration difficulty, spanning continuous and discrete environments. Across state-of-the-art models, we find systematic under-exploration and suboptimal solutions, with performance often significantly worse than simple explore--exploit heuristic baselines and scaling weakly as the budget increases. Finally, we study two lightweight interventions: splitting a fixed budget into parallel executions, which surprisingly improves performance despite a no-gain theoretical result for our tasks, and periodically summarizing the interaction history, which preserves key discoveries and further improves exploration.