Неспособность к исследованию: языковые модели в интерактивных задачах
Failing to Explore: Language Models on Interactive Tasks
January 29, 2026
Авторы: Mahdi JafariRaviz, Keivan Rezaei, Arshia Soltani Moakhar, Zahra Sodagar, Yize Cheng, Soheil Feizi
cs.AI
Аннотация
Мы оцениваем способность языковых моделей исследовать интерактивные среды при ограниченном бюджете взаимодействий. Представлены три параметрические задачи с контролируемой сложностью исследования, охватывающие непрерывные и дискретные среды. Для современных моделей наблюдается систематически недостаточное исследование и субоптимальные решения, при этом производительность часто оказывается значительно хуже, чем у простых эвристических базовых стратегий типа "исследование-использование", и слабо масштабируется с ростом бюджета. Наконец, мы исследуем два легковесных вмешательства: разделение фиксированного бюджета на параллельные выполнения, что неожиданно улучшает производительность, несмотря на теоретическое отсутствие выигрыша для наших задач, и периодическое суммирование истории взаимодействий, которое сохраняет ключевые открытия и дополнительно улучшает исследование.
English
We evaluate language models on their ability to explore interactive environments under a limited interaction budget. We introduce three parametric tasks with controllable exploration difficulty, spanning continuous and discrete environments. Across state-of-the-art models, we find systematic under-exploration and suboptimal solutions, with performance often significantly worse than simple explore--exploit heuristic baselines and scaling weakly as the budget increases. Finally, we study two lightweight interventions: splitting a fixed budget into parallel executions, which surprisingly improves performance despite a no-gain theoretical result for our tasks, and periodically summarizing the interaction history, which preserves key discoveries and further improves exploration.