경험의 시대, 언어 기반 시행착오는 한계에 부딪히다
Language-based Trial and Error Falls Behind in the Era of Experience
January 29, 2026
저자: Haoyu Wang, Guozheng Ma, Shugang Cui, Yilun Kong, Haotian Luo, Li Shen, Mengya Gao, Yichao Wu, Xiaogang Wang, Dacheng Tao
cs.AI
초록
대규모 언어 모델(LLM)은 언어 기반 에이전트 작업에서 뛰어난 성능을 보이지만, 본격적으로 접해보지 않은 비언어적 환경(예: 기호 또는 공간 작업)에의 적용 가능성은 여전히 제한적입니다. 선행 연구는 이러한 성능 격차가 사전 훈련 분포와 테스트 분포 간의 불일치에서 비롯된다고 설명합니다. 본 연구에서는 주요 병목 현상이 탐색의 과도한 비용에 있음을 입증합니다. 이러한 작업을 숙달하려면 방대한 시행착오가 필요하지만, 이는 고차원 의미 공간에서 동작하는 매개변수가 많은 LLM에게는 계산적으로 지속 불가능합니다. 이를 해결하기 위해 우리는 탐색과 활용을 분리하는 새로운 프레임워크인 SCOUT(Sub-Scale Collaboration On Unseen Tasks)를 제안합니다. 경량 "스카우트"(예: 소형 MLP)를 활용하여 LLM을 훨씬 능가하는 속도와 규모로 환경 역학을 탐사합니다. 수집된 궤적은 지도 미세 조정(SFT)을 통해 LLM의 성능을 빠르게 향상시키는 데 활용되며, 이후 다중 턴 강화 학습(RL)을 통해 LLM의 잠재된 세계 지식을 활성화합니다. 실험적으로 SCOUT는 Qwen2.5-3B-Instruct 모델이 평균 점수 0.86을 달성하여 Gemini-2.5-Pro(0.60)를 포함한 독점 모델들을 크게 능가하면서도 GPU 사용 시간을 약 60% 절약할 수 있게 합니다.
English
While Large Language Models (LLMs) excel in language-based agentic tasks, their applicability to unseen, nonlinguistic environments (e.g., symbolic or spatial tasks) remains limited. Previous work attributes this performance gap to the mismatch between the pretraining distribution and the testing distribution. In this work, we demonstrate the primary bottleneck is the prohibitive cost of exploration: mastering these tasks requires extensive trial-and-error, which is computationally unsustainable for parameter-heavy LLMs operating in a high dimensional semantic space. To address this, we propose SCOUT (Sub-Scale Collaboration On Unseen Tasks), a novel framework that decouples exploration from exploitation. We employ lightweight "scouts" (e.g., small MLPs) to probe environmental dynamics at a speed and scale far exceeding LLMs. The collected trajectories are utilized to bootstrap the LLM via Supervised Fine-Tuning (SFT), followed by multi-turn Reinforcement Learning (RL) to activate its latent world knowledge. Empirically, SCOUT enables a Qwen2.5-3B-Instruct model to achieve an average score of 0.86, significantly outperforming proprietary models, including Gemini-2.5-Pro (0.60), while saving about 60% GPU hours consumption.