Falhando em Explorar: Modelos de Linguagem em Tarefas Interativas
Failing to Explore: Language Models on Interactive Tasks
January 29, 2026
Autores: Mahdi JafariRaviz, Keivan Rezaei, Arshia Soltani Moakhar, Zahra Sodagar, Yize Cheng, Soheil Feizi
cs.AI
Resumo
Avaliamos modelos de linguagem quanto à sua capacidade de explorar ambientes interativos sob um orçamento de interação limitado. Introduzimos três tarefas paramétricas com dificuldade de exploração controlável, abrangendo ambientes contínuos e discretos. Entre os modelos de última geração, encontramos subexploração sistemática e soluções subótimas, com desempenho frequentemente significativamente pior do que linhas de base heurísticas simples de explorar-explorar e que escala fracamente à medida que o orçamento aumenta. Por fim, estudamos duas intervenções leves: dividir um orçamento fixo em execuções paralelas, o que, surpreendentemente, melhora o desempenho apesar de um resultado teórico de não ganho para nossas tarefas, e resumir periodicamente o histórico de interação, o que preserva descobertas-chave e melhora ainda mais a exploração.
English
We evaluate language models on their ability to explore interactive environments under a limited interaction budget. We introduce three parametric tasks with controllable exploration difficulty, spanning continuous and discrete environments. Across state-of-the-art models, we find systematic under-exploration and suboptimal solutions, with performance often significantly worse than simple explore--exploit heuristic baselines and scaling weakly as the budget increases. Finally, we study two lightweight interventions: splitting a fixed budget into parallel executions, which surprisingly improves performance despite a no-gain theoretical result for our tasks, and periodically summarizing the interaction history, which preserves key discoveries and further improves exploration.