ChatPaper.aiChatPaper

탐색 실패: 상호작용 과제에서의 언어 모델

Failing to Explore: Language Models on Interactive Tasks

January 29, 2026
저자: Mahdi JafariRaviz, Keivan Rezaei, Arshia Soltani Moakhar, Zahra Sodagar, Yize Cheng, Soheil Feizi
cs.AI

초록

우리는 언어 모델이 제한된 상호작용 예산 하에서 대화형 환경을 탐색하는 능력을 평가한다. 탐색 난이도를 조절할 수 있는 세 가지 파라미터 기반 과제를 연속 및 이산 환경에 걸쳐 제안한다. 최첨단 모델들을 대상으로 한 실험에서 체계적인 탐색 부족과 최적에 못 미치는 해법이 관찰되었으며, 성능이 단순한 탐색-활용 휴리스틱 기준선보다 현저히 낮은 경우가 많고 예산 증가에 따른 성능 향상도 미미한 것으로 나타났다. 마지막으로 두 가지 경량 개입 방법을 분석한다: 고정 예산을 병렬 실행으로 분할하는 방식은 우리 과제에서 이론적으로 이득이 없음에도 불구하고 성능을 개선했으며, 상호작용 이력을 주기적으로 요약하는 방식은 핵심 발견을 보존하고 탐색 성능을 추가로 향상시켰다.
English
We evaluate language models on their ability to explore interactive environments under a limited interaction budget. We introduce three parametric tasks with controllable exploration difficulty, spanning continuous and discrete environments. Across state-of-the-art models, we find systematic under-exploration and suboptimal solutions, with performance often significantly worse than simple explore--exploit heuristic baselines and scaling weakly as the budget increases. Finally, we study two lightweight interventions: splitting a fixed budget into parallel executions, which surprisingly improves performance despite a no-gain theoretical result for our tasks, and periodically summarizing the interaction history, which preserves key discoveries and further improves exploration.
PDF23February 7, 2026