ChatPaper.aiChatPaper

IIB-LPO: 反復的情報ボトルネックによる潜在方策最適化

IIB-LPO: Latent Policy Optimization via Iterative Information Bottleneck

January 9, 2026
著者: Huilin Deng, Hongchen Luo, Yue Zhu, Long Li, Zhuoyue Chen, Xinghao Zhao, Ming Li, Jihai Zhang, Mengchang Wang, Yang Cao, Yu Kang
cs.AI

要旨

大規模言語モデル(LLM)の推論における検証可能な報酬を用いた強化学習(RLVR)の近年の進展は、探索崩壊という根強い課題によって阻害されてきた。ランダムなロールアウトの意味的均質性は、モデルを狭く過度に最適化された行動に閉じ込めることが多い。既存手法は探索を促進するため方策エントロピーを利用するが、本質的な限界に直面している。大域的なエントロピー正則化は報酬ハッキングの影響を受けやすく、無意味な冗長性を誘発する可能性がある一方、局所的なトークン選択的更新は事前学習済みモデルの強い帰納バイアスに苦戦する。この問題に対処するため、我々は反復的情報ボトルネックによる潜在方策最適化(IIB-LPO)を提案する。この新規手法は、探索をトークン分布の統計的摂動から推論軌道の位相的分岐へと転換する。IIB-LPOは高エントロピー状態で潜在的分岐を引き起こし推論経路を多様化するとともに、情報ボトルネック原理を軌道フィルタと自己報酬機構の両方として活用し、簡潔で情報量の多い探索を保証する。4つの数学的推論ベンチマークによる実験結果は、IIB-LPOが最高精度を達成し、従来手法を精度で最大5.3%、多様性指標で最大7.4%上回ることを実証している。
English
Recent advances in Reinforcement Learning with Verifiable Rewards (RLVR) for Large Language Model (LLM) reasoning have been hindered by a persistent challenge: exploration collapse. The semantic homogeneity of random rollouts often traps models in narrow, over-optimized behaviors. While existing methods leverage policy entropy to encourage exploration, they face inherent limitations. Global entropy regularization is susceptible to reward hacking, which can induce meaningless verbosity, whereas local token-selective updates struggle with the strong inductive bias of pre-trained models. To address this, we propose Latent Policy Optimization via Iterative Information Bottleneck (IIB-LPO), a novel approach that shifts exploration from statistical perturbation of token distributions to topological branching of reasoning trajectories. IIB-LPO triggers latent branching at high-entropy states to diversify reasoning paths and employs the Information Bottleneck principle both as a trajectory filter and a self-reward mechanism, ensuring concise and informative exploration. Empirical results across four mathematical reasoning benchmarks demonstrate that IIB-LPO achieves state-of-the-art performance, surpassing prior methods by margins of up to 5.3% in accuracy and 7.4% in diversity metrics.
PDF00January 13, 2026