TreePO : Combler l'écart entre l'optimisation de politique, l'efficacité et l'efficience de l'inférence grâce à une modélisation heuristique basée sur les arbres

papers.abstract

Les récents progrès dans l'alignement des grands modèles de langage via l'apprentissage par renforcement ont permis des gains remarquables dans la résolution de problèmes de raisonnement complexes, mais au prix de déploiements on-policy coûteux et d'une exploration limitée des chemins de raisonnement diversifiés. Dans ce travail, nous introduisons TreePO, impliquant un algorithme de déploiement auto-guidé qui considère la génération de séquences comme un processus de recherche structuré en arbre. Composé d'une politique d'échantillonnage dynamique d'arbre et d'un décodage de segments de longueur fixe, TreePO exploite l'incertitude locale pour garantir des branches supplémentaires. En amortissant le calcul sur les préfixes communs et en élaguant précocement les chemins de faible valeur, TreePO réduit essentiellement la charge de calcul par mise à jour tout en préservant ou en améliorant la diversité de l'exploration. Les contributions clés incluent : (1) un algorithme d'échantillonnage segmenté qui allège la charge du cache KV grâce à des segments contigus et génère de nouvelles branches avec un mécanisme d'arrêt précoce ; (2) une estimation d'avantage au niveau des segments basée sur l'arbre qui prend en compte à la fois l'optimisation de politique proximale globale et locale ; et (3) une analyse de l'efficacité de la divergence dynamique pilotée par la probabilité et la qualité ainsi que de la stratégie de repli. Nous validons empiriquement le gain de performance de TreePO sur un ensemble de benchmarks de raisonnement et l'économie d'efficacité en heures GPU de 22\% à 43\% pour la conception d'échantillonnage des modèles entraînés, tout en montrant une réduction allant jusqu'à 40\% au niveau des trajectoires et 35\% au niveau des tokens pour les modèles existants. Tout en offrant un gain d'efficacité d'inférence sans coût supplémentaire, TreePO révèle une voie pratique pour mettre à l'échelle le post-entraînement basé sur le RL avec moins d'échantillons et moins de calcul. La page d'accueil se trouve à l'adresse https://m-a-p.ai/TreePO.

English

Recent advancements in aligning large language models via reinforcement learning have achieved remarkable gains in solving complex reasoning problems, but at the cost of expensive on-policy rollouts and limited exploration of diverse reasoning paths. In this work, we introduce TreePO, involving a self-guided rollout algorithm that views sequence generation as a tree-structured searching process. Composed of dynamic tree sampling policy and fixed-length segment decoding, TreePO leverages local uncertainty to warrant additional branches. By amortizing computation across common prefixes and pruning low-value paths early, TreePO essentially reduces the per-update compute burden while preserving or enhancing exploration diversity. Key contributions include: (1) a segment-wise sampling algorithm that alleviates the KV cache burden through contiguous segments and spawns new branches along with an early-stop mechanism; (2) a tree-based segment-level advantage estimation that considers both global and local proximal policy optimization. and (3) analysis on the effectiveness of probability and quality-driven dynamic divergence and fallback strategy. We empirically validate the performance gain of TreePO on a set reasoning benchmarks and the efficiency saving of GPU hours from 22\% up to 43\% of the sampling design for the trained models, meanwhile showing up to 40\% reduction at trajectory-level and 35\% at token-level sampling compute for the existing models. While offering a free lunch of inference efficiency, TreePO reveals a practical path toward scaling RL-based post-training with fewer samples and less compute. Home page locates at https://m-a-p.ai/TreePO.

TreePO : Combler l'écart entre l'optimisation de politique, l'efficacité et l'efficience de l'inférence grâce à une modélisation heuristique basée sur les arbres

TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling

papers.abstract

Support