ChatPaper.aiChatPaper

Эпоха проб и ошибок на основе языка уступает место эпохе опыта.

Language-based Trial and Error Falls Behind in the Era of Experience

January 29, 2026
Авторы: Haoyu Wang, Guozheng Ma, Shugang Cui, Yilun Kong, Haotian Luo, Li Shen, Mengya Gao, Yichao Wu, Xiaogang Wang, Dacheng Tao
cs.AI

Аннотация

Хотя большие языковые модели (LLM) преуспевают в решении задач, основанных на языке, их применимость к новым, нелингвистическим средам (например, символьным или пространственным задачам) остается ограниченной. Предыдущие исследования объясняют этот разрыв в производительности несоответствием между распределением данных при предварительном обучении и распределением при тестировании. В данной работе мы показываем, что основным узким местом является непомерно высокая стоимость исследования: освоение этих задач требует обширных проб и ошибок, что вычислительно нецелесообразно для параметрически тяжелых LLM, работающих в высокоразмерном семантическом пространстве. Чтобы решить эту проблему, мы предлагаем SCOUT (Sub-Scale Collaboration On Unseen Tasks) — новую структуру, которая разделяет исследование среды и ее использование. Мы применяем легковесные «разведчики» (например, небольшие MLP) для зондирования динамики среды со скоростью и масштабом, значительно превосходящими возможности LLM. Собранные траектории используются для начальной настройки LLM с помощью контролируемого тонкого обучения (SFT), за которым следует многошаговое обучение с подкреплением (RL) для активации ее скрытых знаний о мире. Экспериментально показано, что SCOUT позволяет модели Qwen2.5-3B-Instruct достичь среднего балла 0.86, что значительно превосходит результаты проприетарных моделей, включая Gemini-2.5-Pro (0.60), при экономии около 60% затрат GPU-часов.
English
While Large Language Models (LLMs) excel in language-based agentic tasks, their applicability to unseen, nonlinguistic environments (e.g., symbolic or spatial tasks) remains limited. Previous work attributes this performance gap to the mismatch between the pretraining distribution and the testing distribution. In this work, we demonstrate the primary bottleneck is the prohibitive cost of exploration: mastering these tasks requires extensive trial-and-error, which is computationally unsustainable for parameter-heavy LLMs operating in a high dimensional semantic space. To address this, we propose SCOUT (Sub-Scale Collaboration On Unseen Tasks), a novel framework that decouples exploration from exploitation. We employ lightweight "scouts" (e.g., small MLPs) to probe environmental dynamics at a speed and scale far exceeding LLMs. The collected trajectories are utilized to bootstrap the LLM via Supervised Fine-Tuning (SFT), followed by multi-turn Reinforcement Learning (RL) to activate its latent world knowledge. Empirically, SCOUT enables a Qwen2.5-3B-Instruct model to achieve an average score of 0.86, significantly outperforming proprietary models, including Gemini-2.5-Pro (0.60), while saving about 60% GPU hours consumption.
PDF133January 31, 2026