在经验时代，基于语言的试错法已显滞后

Abstract

Sebbene i Large Language Model (LLM) eccellano in compiti agentivi basati sul linguaggio, la loro applicabilità ad ambienti non linguistici e non visti (ad esempio, compiti simbolici o spaziali) rimane limitata. I lavori precedenti attribuiscono questo divario di performance alla discrepanza tra la distribuzione di pre-addestramento e quella di test. In questo lavoro, dimostriamo che il collo di bottiglia principale è il costo proibitivo dell'esplorazione: padroneggiare questi compiti richiede un'estesa procedura per tentativi ed errori, che è computazionalmente insostenibile per LLM con un elevato numero di parametri che operano in uno spazio semantico ad alta dimensionalità. Per affrontare questo problema, proponiamo SCOUT (Sub-Scale Collaboration On Unseen Tasks), un framework innovativo che disaccoppia l'esplorazione dallo sfruttamento. Impieghiamo "esploratori" leggeri (ad esempio, piccole MLP) per sondare le dinamiche ambientali a una velocità e scala di gran lunga superiori a quelle degli LLM. Le traiettorie raccolte vengono utilizzate per avviare l'LLM tramite Supervised Fine-Tuning (SFT), seguito da Reinforcement Learning (RL) multi-turn per attivare la sua conoscenza latente del mondo. Empiricamente, SCOUT consente a un modello Qwen2.5-3B-Instruct di raggiungere un punteggio medio di 0,86, superando significativamente modelli proprietari, incluso Gemini-2.5-Pro (0,60), consentendo al contempo un risparmio di circa il 60% del consumo di ore GPU.

English

While Large Language Models (LLMs) excel in language-based agentic tasks, their applicability to unseen, nonlinguistic environments (e.g., symbolic or spatial tasks) remains limited. Previous work attributes this performance gap to the mismatch between the pretraining distribution and the testing distribution. In this work, we demonstrate the primary bottleneck is the prohibitive cost of exploration: mastering these tasks requires extensive trial-and-error, which is computationally unsustainable for parameter-heavy LLMs operating in a high dimensional semantic space. To address this, we propose SCOUT (Sub-Scale Collaboration On Unseen Tasks), a novel framework that decouples exploration from exploitation. We employ lightweight "scouts" (e.g., small MLPs) to probe environmental dynamics at a speed and scale far exceeding LLMs. The collected trajectories are utilized to bootstrap the LLM via Supervised Fine-Tuning (SFT), followed by multi-turn Reinforcement Learning (RL) to activate its latent world knowledge. Empirically, SCOUT enables a Qwen2.5-3B-Instruct model to achieve an average score of 0.86, significantly outperforming proprietary models, including Gemini-2.5-Pro (0.60), while saving about 60% GPU hours consumption.

在经验时代，基于语言的试错法已显滞后

Language-based Trial and Error Falls Behind in the Era of Experience

Abstract

Support