Spark: Esplorazione Consapevole delle Politiche Strategiche tramite Ramificazione Dinamica per l'Apprendimento Agente a Lungo Termine

Abstract

L'apprendimento per rinforzo ha consentito ai modelli linguistici di grandi dimensioni di agire come agenti intelligenti, ma l'addestrarli per compiti a lungo termine rimane complesso a causa della scarsità di traiettorie di alta qualità, specialmente in contesti con risorse limitate. I metodi esistenti generalmente aumentano il numero di rollout e allocano indiscriminatamente le risorse computazionali tra i passi intermedi. Tali tentativi sprecano intrinsecamente budget computazionali sostanziali su passi banali, senza garantire la qualità del campionamento. Per affrontare questo problema, proponiamo Spark (Strategic Policy-Aware exploRation via Key-state dynamic branching), un framework innovativo che seleziona ramificazioni negli stati decisionali critici per un'esplorazione efficiente delle risorse. La nostra intuizione chiave è attivare un'esplorazione adattiva di ramificazione nei punti decisionali critici per investigare traiettorie promettenti, ottenendo così un'allocazione precisa delle risorse che privilegia la qualità del campionamento rispetto a una copertura indiscriminata. Questo design sfrutta i segnali decisionali intrinseci dell'agente per ridurre la dipendenza da conoscenze a priori umane, consentendo all'agente di espandere autonomamente l'esplorazione e raggiungere una generalizzazione più robusta. Esperimenti su vari compiti (ad esempio, pianificazione embodied) dimostrano che Spark raggiunge tassi di successo superiori con un numero significativamente inferiore di campioni di addestramento, mostrando una generalizzazione robusta anche in scenari non visti.

English

Reinforcement learning has empowered large language models to act as intelligent agents, yet training them for long-horizon tasks remains challenging due to the scarcity of high-quality trajectories, especially under limited resources. Existing methods typically scale up rollout sizes and indiscriminately allocate computational resources among intermediate steps. Such attempts inherently waste substantial computation budget on trivial steps while failing to guarantee sample quality. To address this, we propose Spark (Strategic Policy-Aware exploRation via Key-state dynamic branching), a novel framework that selectively branches at critical decision states for resource-efficient exploration. Our key insight is to activate adaptive branching exploration at critical decision points to probe promising trajectories, thereby achieving precise resource allocation that prioritizes sampling quality over blind coverage. This design leverages the agent's intrinsic decision-making signals to reduce dependence on human priors, enabling the agent to autonomously expand exploration and achieve stronger generalization. Experiments across diverse tasks (e.g., embodied planning), demonstrate that Spark achieves superior success rates with significantly fewer training samples, exhibiting robust generalization even in unseen scenarios.

Spark: Esplorazione Consapevole delle Politiche Strategiche tramite Ramificazione Dinamica per l'Apprendimento Agente a Lungo Termine

Spark: Strategic Policy-Aware Exploration via Dynamic Branching for Long-Horizon Agentic Learning

Abstract

Support