Sprachbasiertes Trial-and-Error-Verfahren verliert im Zeitalter der Erfahrung an Bedeutung.

papers.abstract

Während Large Language Models (LLMs) bei sprachbasierten agentenbasierten Aufgaben hervorragende Leistungen erbringen, bleibt ihre Anwendbarkeit auf ungesehene, nicht-linguistische Umgebungen (z.B. symbolische oder räumliche Aufgaben) begrenzt. Bisherige Arbeiten führen diese Leistungslücke auf die Diskrepanz zwischen der Vor-Trainingsverteilung und der Testverteilung zurück. In dieser Arbeit zeigen wir, dass der primäre Engpass die prohibitiv hohen Kosten der Exploration sind: Die Beherrschung dieser Aufgaben erfordert umfangreiche Versuchs- und Irrtumsprozesse, die für parameterstarke LLMs, die in einem hochdimensionalen semantischen Raum operieren, rechentechnisch nicht nachhaltig sind. Um dies zu adressieren, schlagen wir SCOUT (Sub-Scale Collaboration On Unseen Tasks) vor, einen neuartigen Rahmen, der Exploration von Exploitation entkoppelt. Wir setzen leichtgewichtige "Scouts" (z.B. kleine MLPs) ein, um die Umgebungsdynamik mit einer Geschwindigkeit und in einem Umfang zu erkunden, die LLMs bei weitem übersteigen. Die gesammelten Trajektorien werden genutzt, um das LLM via Supervised Fine-Tuning (SFT) zu bootstrappen, gefolgt von mehrstufigem Reinforcement Learning (RL), um sein latentes Weltwissen zu aktivieren. Empirisch ermöglicht SCOUT einem Qwen2.5-3B-Instruct-Modell, eine durchschnittliche Punktzahl von 0,86 zu erreichen, was proprietäre Modelle wie Gemini-2.5-Pro (0,60) signifikant übertrifft und gleichzeitig den GPU-Stundenverbrauch um etwa 60 % reduziert.

English

While Large Language Models (LLMs) excel in language-based agentic tasks, their applicability to unseen, nonlinguistic environments (e.g., symbolic or spatial tasks) remains limited. Previous work attributes this performance gap to the mismatch between the pretraining distribution and the testing distribution. In this work, we demonstrate the primary bottleneck is the prohibitive cost of exploration: mastering these tasks requires extensive trial-and-error, which is computationally unsustainable for parameter-heavy LLMs operating in a high dimensional semantic space. To address this, we propose SCOUT (Sub-Scale Collaboration On Unseen Tasks), a novel framework that decouples exploration from exploitation. We employ lightweight "scouts" (e.g., small MLPs) to probe environmental dynamics at a speed and scale far exceeding LLMs. The collected trajectories are utilized to bootstrap the LLM via Supervised Fine-Tuning (SFT), followed by multi-turn Reinforcement Learning (RL) to activate its latent world knowledge. Empirically, SCOUT enables a Qwen2.5-3B-Instruct model to achieve an average score of 0.86, significantly outperforming proprietary models, including Gemini-2.5-Pro (0.60), while saving about 60% GPU hours consumption.

Sprachbasiertes Trial-and-Error-Verfahren verliert im Zeitalter der Erfahrung an Bedeutung.

Language-based Trial and Error Falls Behind in the Era of Experience

papers.abstract

Support