El Ensayo y Error Basado en el Lenguaje se Queda Atrás en la Era de la Experiencia

Resumen

Si bien los Modelos de Lenguaje a Gran Escala (LLMs) sobresalen en tareas agentivas basadas en lenguaje, su aplicabilidad a entornos no lingüísticos no vistos (por ejemplo, tareas simbólicas o espaciales) sigue siendo limitada. Trabajos previos atribuyen esta brecha de rendimiento al desajuste entre la distribución de pre-entrenamiento y la distribución de prueba. En este trabajo, demostramos que el cuello de botella principal es el costo prohibitivo de la exploración: dominar estas tareas requiere un extenso proceso de prueba y error, lo cual es computacionalmente insostenible para LLMs con gran cantidad de parámetros que operan en un espacio semántico de alta dimensión. Para abordar este problema, proponemos SCOUT (Colaboración a Sub-Escala en Tareas No Vistas), un marco novedoso que desacopla la exploración de la explotación. Empleamos "exploradores" ligeros (por ejemplo, MLPs pequeños) para sondear la dinámica del entorno a una velocidad y escala muy superiores a la de los LLMs. Las trayectorias recopiladas se utilizan para impulsar al LLM mediante Fine-Tuning Supervisado (SFT), seguido de Aprendizaje por Refuerzo (RL) multi-turno para activar su conocimiento latente del mundo. Empíricamente, SCOUT permite que un modelo Qwen2.5-3B-Instruct logre una puntuación promedio de 0.86, superando significativamente a modelos propietarios, incluido Gemini-2.5-Pro (0.60), mientras ahorra aproximadamente un 60% del consumo de horas de GPU.

English

While Large Language Models (LLMs) excel in language-based agentic tasks, their applicability to unseen, nonlinguistic environments (e.g., symbolic or spatial tasks) remains limited. Previous work attributes this performance gap to the mismatch between the pretraining distribution and the testing distribution. In this work, we demonstrate the primary bottleneck is the prohibitive cost of exploration: mastering these tasks requires extensive trial-and-error, which is computationally unsustainable for parameter-heavy LLMs operating in a high dimensional semantic space. To address this, we propose SCOUT (Sub-Scale Collaboration On Unseen Tasks), a novel framework that decouples exploration from exploitation. We employ lightweight "scouts" (e.g., small MLPs) to probe environmental dynamics at a speed and scale far exceeding LLMs. The collected trajectories are utilized to bootstrap the LLM via Supervised Fine-Tuning (SFT), followed by multi-turn Reinforcement Learning (RL) to activate its latent world knowledge. Empirically, SCOUT enables a Qwen2.5-3B-Instruct model to achieve an average score of 0.86, significantly outperforming proprietary models, including Gemini-2.5-Pro (0.60), while saving about 60% GPU hours consumption.

El Ensayo y Error Basado en el Lenguaje se Queda Atrás en la Era de la Experiencia

Language-based Trial and Error Falls Behind in the Era of Experience

Resumen

Support