ChatPaper.aiChatPaper

バランスよ永遠なれ:情報ボトルネック駆動の木ベース方策最適化

Long Live The Balance: Information Bottleneck Driven Tree-based Policy Optimization

May 27, 2026
著者: Hao Jiang, Shurui Li, Tianpeng Bu, Bowen Xu, Xin Liu, Qihua Chen, Hongtao Duan, Lulu Hu, Bin Yang, Minying Zhang
cs.AI

要旨

大規模言語モデル(LLM)向けオンライン強化学習(RL)の最近の進歩は、複雑な推論タスクにおいて有望な性能を示している。しかしながら、それらはしばしば探索と活用のトレードオフにおいて不均衡を示し、その結果、不安定な最適化と準最適な性能をもたらす。我々は、情報ボトルネック理論に基づく新しい指標であるIB-Scoreを導入する。これは、ステップレベルの推論多様性と正解と共有される相互情報量の間のトレードオフを定量化することにより、方策の探索と活用のバランスを評価する。IB-Scoreに基づく分析は、一般的な正則化器を用いた一般的なオンラインRL手法(例:GRPO)が、訓練中に一貫してバランスを維持できず、準最適な結果に至ることを示している。これに対処するため、我々は情報ボトルネック駆動型木構造方策最適化(IB-TPO)を提案する。これは、IB-Scoreを細粒度の最適化目的として定式化する原理的なフレームワークであり、新たなIB誘導木構造サンプリング戦略を利用する。この戦略は、同じトークンバジェットの下で50%多い軌道を用いてオンラインサンプリングの効率を向上させるだけでなく、木構造を再利用して効果的なIB-Scoreのモンテカルロ推定を行う。標準ベンチマークにわたる広範な実験により、我々の手法がGRPOベースラインを2.9%から3.6%上回り、他の最先端のオンラインRL手法も凌駕することを示している。我々のコードは以下で入手可能である: https://github.com/alibaba/EfficientRL
English
Recent advances in online reinforcement learning (RL) for large language models (LLMs) have demonstrated promising performance in complex reasoning tasks. However, they often exhibit an imbalanced exploration-exploitation trade-off, resulting in unstable optimization and sub-optimal performance. We introduce IB-Score, a novel metric grounded in Information Bottleneck theory that evaluates policy's exploration-exploitation balance by quantifying the trade-off between step-level reasoning diversity and mutual information shared with the correct answer. Analysis based on IB-Score shows that popular online RL approaches (e.g., GRPO) with common regularizers fail to consistently maintain balance during training with suboptimal results. To address this, we propose Information Bottleneck-driven Tree-based Policy Optimization (IB-TPO), a principled framework that formulates IB-Score as a fine-grained optimization objective and utilizes a novel IB-guided tree sampling strategy that not only improves the efficiency of online sampling with 50% more trajectories under the same token budget, but also reuses the tree structure for effective IB-Score Monte Carlo estimation. Extensive experiments across standard benchmarks show that our method significantly outperforms GRPO baseline by 2.9% to 3.6% and also outperforms other state-of-the-art online RL approaches. Our code is available at https://github.com/alibaba/EfficientRL.