探索の失敗:インタラクティブ課題における言語モデル
Failing to Explore: Language Models on Interactive Tasks
January 29, 2026
著者: Mahdi JafariRaviz, Keivan Rezaei, Arshia Soltani Moakhar, Zahra Sodagar, Yize Cheng, Soheil Feizi
cs.AI
要旨
我々は、限定的なインタラクション予算下での対話的環境探索能力について言語モデルを評価する。探索難易度を制御可能な3つのパラメトリックタスクを連続環境と離散環境にわたって導入した。最先端モデルを横断的に分析した結果、体系的な探索不足と非最適解が確認され、性能は単純な探索―利用ヒューリスティックベースラインよりも大幅に劣ることが多く、予算増加に対するスケーリングも弱いことが明らかになった。最後に、2つの軽量介入手法を検討する:固定予算を並列実行に分割する手法(理論的には利得が期待されないタスクにおいて驚くべき性能向上を示す)と、インタラクション履歴の定期的な要約(重要な発見を保持し探索をさらに改善する)である。
English
We evaluate language models on their ability to explore interactive environments under a limited interaction budget. We introduce three parametric tasks with controllable exploration difficulty, spanning continuous and discrete environments. Across state-of-the-art models, we find systematic under-exploration and suboptimal solutions, with performance often significantly worse than simple explore--exploit heuristic baselines and scaling weakly as the budget increases. Finally, we study two lightweight interventions: splitting a fixed budget into parallel executions, which surprisingly improves performance despite a no-gain theoretical result for our tasks, and periodically summarizing the interaction history, which preserves key discoveries and further improves exploration.