A Tentativa e Erro Baseada na Linguagem Fica Para Trás na Era da Experiência

Resumo

Embora os Modelos de Linguagem de Grande Porte (LLMs) se destaquem em tarefas agentivas baseadas em linguagem, sua aplicabilidade a ambientes não linguísticos não vistos (por exemplo, tarefas simbólicas ou espaciais) permanece limitada. Trabalhos anteriores atribuem essa lacuna de desempenho ao descompasso entre a distribuição de pré-treinamento e a distribuição de teste. Neste trabalho, demonstramos que o principal gargalo é o custo proibitivo da exploração: dominar essas tarefas requer extensivas tentativas e erros, o que é computacionalmente insustentável para LLMs com muitos parâmetros que operam em um espaço semântico de alta dimensionalidade. Para resolver isso, propomos o SCOUT (Colaboração em Subescala em Tarefas Não Vistas), uma estrutura inovadora que desacopla a exploração da exploração (exploitation). Empregamos "batedores" leves (por exemplo, pequenas MLPs) para sondar a dinâmica ambiental em uma velocidade e escala muito superiores às dos LLMs. As trajetórias coletadas são utilizadas para dar um impulso inicial (bootstrap) ao LLM via Ajuste Fino Supervisionado (SFT), seguido por Aprendizado por Reforço (RL) multi-turn para ativar seu conhecimento mundial latente. Empiricamente, o SCOUT permite que um modelo Qwen2.5-3B-Instruct atinja uma pontuação média de 0,86, superando significativamente modelos proprietários, incluindo o Gemini-2.5-Pro (0,60), enquanto economiza cerca de 60% do consumo de horas de GPU.

English

While Large Language Models (LLMs) excel in language-based agentic tasks, their applicability to unseen, nonlinguistic environments (e.g., symbolic or spatial tasks) remains limited. Previous work attributes this performance gap to the mismatch between the pretraining distribution and the testing distribution. In this work, we demonstrate the primary bottleneck is the prohibitive cost of exploration: mastering these tasks requires extensive trial-and-error, which is computationally unsustainable for parameter-heavy LLMs operating in a high dimensional semantic space. To address this, we propose SCOUT (Sub-Scale Collaboration On Unseen Tasks), a novel framework that decouples exploration from exploitation. We employ lightweight "scouts" (e.g., small MLPs) to probe environmental dynamics at a speed and scale far exceeding LLMs. The collected trajectories are utilized to bootstrap the LLM via Supervised Fine-Tuning (SFT), followed by multi-turn Reinforcement Learning (RL) to activate its latent world knowledge. Empirically, SCOUT enables a Qwen2.5-3B-Instruct model to achieve an average score of 0.86, significantly outperforming proprietary models, including Gemini-2.5-Pro (0.60), while saving about 60% GPU hours consumption.

A Tentativa e Erro Baseada na Linguagem Fica Para Trás na Era da Experiência

Language-based Trial and Error Falls Behind in the Era of Experience

Resumo

Support