Op taal gebaseerde trial-and-error blijft achter in het tijdperk van ervaring

Samenvatting

Hoewel grote taalmodelmodellen (LLM's) uitblinken in taalkundige agenttaken, blijft hun toepasbaarheid op onbekende, niet-linguïstische omgevingen (zoals symbolische of ruimtelijke taken) beperkt. Eerder onderzoek schrijft deze prestatiekloof toe aan de mismatch tussen de pretrainingsdistributie en de testdistributie. In dit werk tonen we aan dat de voornaamste bottleneck de onhoudbare kosten van exploratie zijn: het beheersen van deze taken vereist uitgebreid trial-and-error, wat computationeel onhoudbaar is voor parameterrijke LLM's die opereren in een hoogdimensionale semantische ruimte. Om dit aan te pakken, stellen we SCOUT (Sub-Scale Collaboration On Unseen Tasks) voor, een nieuw raamwerk dat exploratie ontkoppelt van exploitatie. We zetten lichte "verkenner"-modellen (bijv. kleine MLP's) in om de omgevingsdynamica te verkennen met een snelheid en schaal die ver boven die van LLM's uitstijgt. De verzamelde trajecten worden gebruikt om de LLM op te starten via Supervised Fine-Tuning (SFT), gevolgd door multi-turn Reinforcement Learning (RL) om zijn latente wereldkennis te activeren. Empirisch gezien stelt SCOUT een Qwen2.5-3B-Instruct model in staat om een gemiddelde score van 0.86 te behalen, wat significant beter is dan propriëtaire modellen, waaronder Gemini-2.5-Pro (0.60), terwijl ongeveer 60% aan GPU-uren wordt bespaard.

English

While Large Language Models (LLMs) excel in language-based agentic tasks, their applicability to unseen, nonlinguistic environments (e.g., symbolic or spatial tasks) remains limited. Previous work attributes this performance gap to the mismatch between the pretraining distribution and the testing distribution. In this work, we demonstrate the primary bottleneck is the prohibitive cost of exploration: mastering these tasks requires extensive trial-and-error, which is computationally unsustainable for parameter-heavy LLMs operating in a high dimensional semantic space. To address this, we propose SCOUT (Sub-Scale Collaboration On Unseen Tasks), a novel framework that decouples exploration from exploitation. We employ lightweight "scouts" (e.g., small MLPs) to probe environmental dynamics at a speed and scale far exceeding LLMs. The collected trajectories are utilized to bootstrap the LLM via Supervised Fine-Tuning (SFT), followed by multi-turn Reinforcement Learning (RL) to activate its latent world knowledge. Empirically, SCOUT enables a Qwen2.5-3B-Instruct model to achieve an average score of 0.86, significantly outperforming proprietary models, including Gemini-2.5-Pro (0.60), while saving about 60% GPU hours consumption.

Op taal gebaseerde trial-and-error blijft achter in het tijdperk van ervaring

Language-based Trial and Error Falls Behind in the Era of Experience

Samenvatting

Support