ChatPaper.aiChatPaper

Scheitern bei der Erkundung: Sprachmodelle bei interaktiven Aufgaben

Failing to Explore: Language Models on Interactive Tasks

January 29, 2026
papers.authors: Mahdi JafariRaviz, Keivan Rezaei, Arshia Soltani Moakhar, Zahra Sodagar, Yize Cheng, Soheil Feizi
cs.AI

papers.abstract

Wir evaluieren Sprachmodelle hinsichtlich ihrer Fähigkeit, interaktive Umgebungen unter begrenztem Interaktionsbudget zu erkunden. Wir führen drei parametrische Aufgaben mit kontrollierbarer Erkundungsschwierigkeit ein, die kontinuierliche und diskrete Umgebungen abdecken. Bei state-of-the-art Modellen beobachten wir systematische Untererkundung und suboptimale Lösungen, wobei die Leistung oft deutlich schlechter ist als bei einfachen Explore-Exploit-Heuristiken als Baseline und nur schwach mit steigendem Budget skaliert. Abschließend untersuchen wir zwei leichtgewichtige Interventionen: Die Aufteilung eines festen Budgets in parallele Ausführungen, die überraschenderweise die Leistung verbessert – obwohl für unsere Aufgaben theoretisch kein Gewinn zu erwarten ist – sowie die regelmäßige Zusammenfassung der Interaktionshistorie, die Schlüsselentdeckungen bewahrt und die Erkundung weiter verbessert.
English
We evaluate language models on their ability to explore interactive environments under a limited interaction budget. We introduce three parametric tasks with controllable exploration difficulty, spanning continuous and discrete environments. Across state-of-the-art models, we find systematic under-exploration and suboptimal solutions, with performance often significantly worse than simple explore--exploit heuristic baselines and scaling weakly as the budget increases. Finally, we study two lightweight interventions: splitting a fixed budget into parallel executions, which surprisingly improves performance despite a no-gain theoretical result for our tasks, and periodically summarizing the interaction history, which preserves key discoveries and further improves exploration.
PDF23February 7, 2026