TRACE : Un cadre unifié d'allocation du budget de déploiement pour un apprentissage par renforcement agentique efficace

Résumé

L'apprentissage par renforcement avec récompenses vérifiables (RLVR) constitue une approche prometteuse pour améliorer le raisonnement et le comportement agentique des grands modèles de langage. Cependant, l'optimisation de politique intensive en déploiements est souvent limitée par un contraste de récompense insuffisant, qui survient lorsque des consignes trop simples ou trop complexes génèrent des retours à faible variance, ou lorsque des récompenses uniquement basées sur le résultat final attribuent la même évaluation terminale à chaque décision au sein d'un déploiement multi-tour. Les travaux antérieurs se sont concentrés sur l'allocation des ressources de déploiement disponibles aux consignes prometteuses, mais ils n'exploitent l'informativité des échantillons qu'au niveau de la consigne, négligeant la variation de l'informativité au niveau des préfixes entre les différents tours d'un même déploiement. Ce travail cible l'apprentissage par renforcement agentique multi-tour en modélisant chaque tour de type pensée-action-observation (ReAct) comme un nœud sémantiquement distinct, permettant à l'allocation budgétaire de s'étendre des racines de consigne aux préfixes de tour avec des prolongements ultérieurs, ce qui forme naturellement des déploiements structurés en arbre. Nous introduisons TRACE (Tree Rollout Allocation for Contrastive Exploration), un cadre unifié d'allocation de déploiements qui améliore le contraste de récompense sous un budget d'échantillonnage fixe. Techniquement, TRACE alloue le budget de déploiement à la fois aux racines de consigne et aux préfixes intermédiaires les plus susceptibles de produire des récompenses terminales mixtes. Un prédicteur partagé et généralisable estime la probabilité de succès conditionnelle à ces points d'ancrage à partir des historiques de préfixes pour guider cette allocation. La structure arborescente adaptative qui en résulte enrichit le retour uniquement basé sur le résultat et amplifie le signal de mise à jour de la politique. Empiriquement, TRACE atteint des performances compétitives et des gains d'efficacité sur des benchmarks agentiques typiques, par exemple en améliorant la précision moyenne du modèle Qwen3-14B sur le questionnement multi-sauts (Multi-Hop QA) de 2,8 points par rapport aux références concurrentes, à coût d'échantillonnage égal.

English

Reinforcement learning with verifiable rewards (RLVR) is a promising approach for enhancing reasoning and agentic behavior in large language models. However, rollout-intensive policy optimization is often limited by insufficient reward contrast, arising when overly simple or complex prompts generate low-variance feedback and when outcome-only rewards assign the same terminal assessment to every decision in a multi-turn rollout. Past efforts have focused on allocating available rollout resources to promising prompts, yet they only leverage sample informativeness at the prompt level and neglect variation in prefix-level informativeness across turns within the same rollout. This work targets multi-turn agentic RL by modeling each ReAct-style thought-action-observation turn as a semantically distinct node, allowing budget allocation to extend from prompt roots to turn-level prefixes with further continuations, which naturally forms tree-structured rollouts. We introduce Tree Rollout Allocation for Contrastive Exploration (TRACE), a unified rollout allocation framework that enhances reward contrast within a fixed sampling budget. Technically, TRACE allocates rollout budget to both prompt roots and intermediate prefixes that are most likely to yield mixed terminal rewards. A shared generalizable predictor estimates conditional success probability at these anchors from prefix histories to guide this allocation. The resulting adaptive tree structure enriches outcome-only feedback and amplifies the policy-update signal. Empirically, TRACE achieves competitive performance and efficiency gains on typical agentic benchmarks, e.g., improving Qwen3-14B Multi-Hop QA average accuracy by 2.8 points over competitive baselines at equal sampling cost.