Échec de l'exploration : les modèles de langage face aux tâches interactives
Failing to Explore: Language Models on Interactive Tasks
January 29, 2026
papers.authors: Mahdi JafariRaviz, Keivan Rezaei, Arshia Soltani Moakhar, Zahra Sodagar, Yize Cheng, Soheil Feizi
cs.AI
papers.abstract
Nous évaluons la capacité des modèles linguistiques à explorer des environnements interactifs sous un budget d'interaction limité. Nous introduisons trois tâches paramétriques dont la difficulté d'exploration est contrôlable, couvrant des environnements continus et discrets. Pour les modèles les plus performants, nous observons systématiquement une sous-exploration et des solutions sous-optimales, avec des performances souvent bien inférieures à des algorithmes de base simples de type exploration-exploitation, et une amélioration faible lorsque le budget augmente. Enfin, nous étudions deux interventions légères : répartir un budget fixe sur plusieurs exécutions parallèles, ce qui améliore paradoxalement les performances malgré un résultat théorique de gain nul pour nos tâches, et synthétiser périodiquement l'historique des interactions, ce qui préserve les découvertes clés et améliore encore l'exploration.
English
We evaluate language models on their ability to explore interactive environments under a limited interaction budget. We introduce three parametric tasks with controllable exploration difficulty, spanning continuous and discrete environments. Across state-of-the-art models, we find systematic under-exploration and suboptimal solutions, with performance often significantly worse than simple explore--exploit heuristic baselines and scaling weakly as the budget increases. Finally, we study two lightweight interventions: splitting a fixed budget into parallel executions, which surprisingly improves performance despite a no-gain theoretical result for our tasks, and periodically summarizing the interaction history, which preserves key discoveries and further improves exploration.