ChatPaper.aiChatPaper

Mancata esplorazione: i modelli linguistici nei compiti interattivi

Failing to Explore: Language Models on Interactive Tasks

January 29, 2026
Autori: Mahdi JafariRaviz, Keivan Rezaei, Arshia Soltani Moakhar, Zahra Sodagar, Yize Cheng, Soheil Feizi
cs.AI

Abstract

Valutiamo i modelli linguistici sulla loro capacità di esplorare ambienti interattivi con un budget di interazione limitato. Introduciamo tre compiti parametrici con difficoltà di esplorazione controllabile, che abbracciano ambienti continui e discreti. Rispetto ai modelli più all'avanguardia, riscontriamo una sistematica sotto-esplorazione e soluzioni subottimali, con prestazioni spesso significativamente peggiori rispetto a semplici baseline euristiche di esplorazione-sfruttamento e una scalabilità debole all'aumentare del budget. Infine, studiamo due interventi leggeri: suddividere un budget fisso in esecuzioni parallele, che migliora sorprendentemente le prestazioni nonostante un risultato teorico di nessun guadagno per i nostri compiti, e riassumere periodicamente la cronologia delle interazioni, che preserva le scoperte chiave e migliora ulteriormente l'esplorazione.
English
We evaluate language models on their ability to explore interactive environments under a limited interaction budget. We introduce three parametric tasks with controllable exploration difficulty, spanning continuous and discrete environments. Across state-of-the-art models, we find systematic under-exploration and suboptimal solutions, with performance often significantly worse than simple explore--exploit heuristic baselines and scaling weakly as the budget increases. Finally, we study two lightweight interventions: splitting a fixed budget into parallel executions, which surprisingly improves performance despite a no-gain theoretical result for our tasks, and periodically summarizing the interaction history, which preserves key discoveries and further improves exploration.
PDF23February 7, 2026