Falen in Verkenning: Taalmodellen bij Interactieve Taken
Failing to Explore: Language Models on Interactive Tasks
January 29, 2026
Auteurs: Mahdi JafariRaviz, Keivan Rezaei, Arshia Soltani Moakhar, Zahra Sodagar, Yize Cheng, Soheil Feizi
cs.AI
Samenvatting
Wij evalueren taalmodellen op hun vermogen om interactieve omgevingen te verkennen binnen een beperkt interactiebudget. Wij introduceren drie parametrische taken met controleerbare verkenningsmoeilijkheid, die zowel continue als discrete omgevingen omvatten. Bij state-of-the-art modellen constateren wij systematische onderverkenning en suboptimale oplossingen, waarbij de prestaties vaak aanzienlijk slechter zijn dan eenvoudige heuristische explore-exploit-baselines en zwak schalen naarmate het budget toeneemt. Ten slotte bestuderen wij twee lichtgewicht interventies: het verdelen van een vast budget over parallelle uitvoeringen, wat verrassend genoeg de prestaties verbetert ondanks een theoretisch geen-winstresultaat voor onze taken, en het periodiek samenvatten van de interactiegeschiedenis, wat belangrijke ontdekkingen behoudt en de verkenning verder verbetert.
English
We evaluate language models on their ability to explore interactive environments under a limited interaction budget. We introduce three parametric tasks with controllable exploration difficulty, spanning continuous and discrete environments. Across state-of-the-art models, we find systematic under-exploration and suboptimal solutions, with performance often significantly worse than simple explore--exploit heuristic baselines and scaling weakly as the budget increases. Finally, we study two lightweight interventions: splitting a fixed budget into parallel executions, which surprisingly improves performance despite a no-gain theoretical result for our tasks, and periodically summarizing the interaction history, which preserves key discoveries and further improves exploration.