TRACE: Ein einheitliches Rahmenwerk zur Zuweisung von Rollout-Budgets für effizientes agentisches Reinforcement Learning

Zusammenfassung

Verstärkungslernen mit überprüfbaren Belohnungen (RLVR) ist ein vielversprechender Ansatz zur Verbesserung von Denkfähigkeit und agentischem Verhalten in großen Sprachmodellen. Allerdings wird die rollout-intensive Politikoptimierung oft durch unzureichenden Belohnungskontrast eingeschränkt, der entsteht, wenn übermäßig einfache oder komplexe Prompts Feedback mit geringer Varianz erzeugen und wenn ergebnisbasierte Belohnungen jeder Entscheidung in einem mehrschrittigen Rollout dieselbe abschließende Bewertung zuweisen. Bisherige Bemühungen konzentrierten sich darauf, verfügbare Rollout-Ressourcen vielversprechenden Prompts zuzuweisen, doch sie nutzen den Informationsgehalt der Stichproben nur auf Prompt-Ebene und vernachlässigen die Variation des Informationsgehalts auf Präfixebene zwischen den Schritten innerhalb desselben Rollouts. Diese Arbeit befasst sich mit mehrschrittigem agentischem RL, indem jeder ReAct-artige Denk-Aktions-Beobachtungs-Schritt als semantisch eigenständiger Knoten modelliert wird, was die Budgetzuweisung von Prompt-Wurzeln auf Schritt-Präfixe mit weiteren Fortsetzungen ausdehnt, wodurch natürlich baumstrukturierte Rollouts entstehen. Wir führen Tree Rollout Allocation for Contrastive Exploration (TRACE) ein, ein einheitliches Rollout-Zuweisungsframework, das den Belohnungskontrast innerhalb eines festen Stichprobenbudgets verbessert. Technisch gesehen weist TRACE das Rollout-Budget sowohl Prompt-Wurzeln als auch Zwischenpräfixen zu, die am wahrscheinlichsten gemischte abschließende Belohnungen erzielen. Ein gemeinsam genutzter, verallgemeinerbarer Prädiktor schätzt aus Präfixhistorien die bedingte Erfolgswahrscheinlichkeit an diesen Ankerpunkten, um diese Zuweisung zu steuern. Die resultierende adaptive Baumstruktur bereichert das ergebnisbasierte Feedback und verstärkt das Signal zur Politikaktualisierung. Empirisch erzielt TRACE wettbewerbsfähige Leistung und Effizienzgewinne bei typischen agentischen Benchmarks, z. B. eine Verbesserung der durchschnittlichen Genauigkeit von Qwen3-14B bei Multi-Hop-Fragenbeantwortung um 2,8 Punkte gegenüber wettbewerbsfähigen Basislinien bei gleichen Stichprobenkosten.

English

Reinforcement learning with verifiable rewards (RLVR) is a promising approach for enhancing reasoning and agentic behavior in large language models. However, rollout-intensive policy optimization is often limited by insufficient reward contrast, arising when overly simple or complex prompts generate low-variance feedback and when outcome-only rewards assign the same terminal assessment to every decision in a multi-turn rollout. Past efforts have focused on allocating available rollout resources to promising prompts, yet they only leverage sample informativeness at the prompt level and neglect variation in prefix-level informativeness across turns within the same rollout. This work targets multi-turn agentic RL by modeling each ReAct-style thought-action-observation turn as a semantically distinct node, allowing budget allocation to extend from prompt roots to turn-level prefixes with further continuations, which naturally forms tree-structured rollouts. We introduce Tree Rollout Allocation for Contrastive Exploration (TRACE), a unified rollout allocation framework that enhances reward contrast within a fixed sampling budget. Technically, TRACE allocates rollout budget to both prompt roots and intermediate prefixes that are most likely to yield mixed terminal rewards. A shared generalizable predictor estimates conditional success probability at these anchors from prefix histories to guide this allocation. The resulting adaptive tree structure enriches outcome-only feedback and amplifies the policy-update signal. Empirically, TRACE achieves competitive performance and efficiency gains on typical agentic benchmarks, e.g., improving Qwen3-14B Multi-Hop QA average accuracy by 2.8 points over competitive baselines at equal sampling cost.