À l'ère de l'expérience, l'essai-erreur basé sur le langage est dépassé

papers.abstract

Si les grands modèles de langage (LLM) excellent dans les tâches agentiques basées sur le langage, leur applicabilité à des environnements non linguistiques non vus auparavant (par exemple, des tâches symboliques ou spatiales) reste limitée. Les travaux antérieurs attribuent cet écart de performance à l'inadéquation entre la distribution de pré-entraînement et la distribution de test. Dans ce travail, nous démontrons que le principal goulot d'étranglement est le coût prohibitif de l'exploration : maîtriser ces tâches nécessite des essais et erreurs extensifs, ce qui est informatiquement insoutenable pour des LLM lourds en paramètres opérant dans un espace sémantique de haute dimension. Pour résoudre ce problème, nous proposons SCOUT (Sub-Scale Collaboration On Unseen Tasks), un nouveau cadre qui découple l'exploration de l'exploitation. Nous utilisons des « éclaireurs » légers (par exemple, des petits MLP) pour sonder la dynamique environnementale à une vitesse et une échelle dépassant largement celles des LLM. Les trajectoires collectées sont utilisées pour amorcer le LLM via du Fine-Tuning Supervisé (SFT), suivi par un Apprentissage par Renforcement (RL) multi-tours pour activer ses connaissances latentes du monde. Empiriquement, SCOUT permet à un modèle Qwen2.5-3B-Instruct d'atteindre un score moyen de 0,86, surpassant significativement des modèles propriétaires, incluant Gemini-2.5-Pro (0,60), tout en économisant environ 60 % de la consommation d'heures GPU.

English

While Large Language Models (LLMs) excel in language-based agentic tasks, their applicability to unseen, nonlinguistic environments (e.g., symbolic or spatial tasks) remains limited. Previous work attributes this performance gap to the mismatch between the pretraining distribution and the testing distribution. In this work, we demonstrate the primary bottleneck is the prohibitive cost of exploration: mastering these tasks requires extensive trial-and-error, which is computationally unsustainable for parameter-heavy LLMs operating in a high dimensional semantic space. To address this, we propose SCOUT (Sub-Scale Collaboration On Unseen Tasks), a novel framework that decouples exploration from exploitation. We employ lightweight "scouts" (e.g., small MLPs) to probe environmental dynamics at a speed and scale far exceeding LLMs. The collected trajectories are utilized to bootstrap the LLM via Supervised Fine-Tuning (SFT), followed by multi-turn Reinforcement Learning (RL) to activate its latent world knowledge. Empirically, SCOUT enables a Qwen2.5-3B-Instruct model to achieve an average score of 0.86, significantly outperforming proprietary models, including Gemini-2.5-Pro (0.60), while saving about 60% GPU hours consumption.

À l'ère de l'expérience, l'essai-erreur basé sur le langage est dépassé

Language-based Trial and Error Falls Behind in the Era of Experience

papers.abstract

Support