ChatPaper.aiChatPaper

IIB-LPO: Latente Politikoptimierung über iterativen Informations-Flaschenhals

IIB-LPO: Latent Policy Optimization via Iterative Information Bottleneck

January 9, 2026
papers.authors: Huilin Deng, Hongchen Luo, Yue Zhu, Long Li, Zhuoyue Chen, Xinghao Zhao, Ming Li, Jihai Zhang, Mengchang Wang, Yang Cao, Yu Kang
cs.AI

papers.abstract

Jüngste Fortschritte bei Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) für das Schlussfolgern großer Sprachmodelle (LLMs) werden durch eine anhaltende Herausforderung behindert: Exploration Collapse. Die semantische Homogenität zufälliger Rollouts fängt Modelle häufig in engen, überoptimierten Verhaltensweisen ein. Während bestehende Methoden die Policy-Entropie zur Förderung der Exploration nutzen, stoßen sie auf inhärente Grenzen. Globale Entropieregularisierung ist anfällig für Reward Hacking, was zu bedeutungsloser Weitschweifigkeit führen kann, während lokale, token-selektive Updates mit der starken induktiven Verzerrung vortrainierter Modelle kämpfen. Um dies zu adressieren, schlagen wir Latent Policy Optimization via Iterative Information Bottleneck (IIB-LPO) vor, einen neuartigen Ansatz, der die Exploration von der statistischen Perturbation von Token-Verteilungen auf das topologische Verzweigen von Reasoning-Pfaden verlagert. IIB-LPO löst latente Verzweigungen in Hoch-Entropie-Zuständen aus, um Reasoning-Pfade zu diversifizieren, und nutzt das Information-Bottleneck-Prinzip sowohl als Trajektorienfilter als auch als Selbstbelohnungsmechanismus, um präzise und informative Exploration zu gewährleisten. Empirische Ergebnisse über vier mathematische Reasoning-Benchmarks zeigen, dass IIB-LPO state-of-the-art Leistung erreicht und frühere Methoden um bis zu 5,3 % in der Genauigkeit und 7,4 % in Diversitätsmetriken übertrifft.
English
Recent advances in Reinforcement Learning with Verifiable Rewards (RLVR) for Large Language Model (LLM) reasoning have been hindered by a persistent challenge: exploration collapse. The semantic homogeneity of random rollouts often traps models in narrow, over-optimized behaviors. While existing methods leverage policy entropy to encourage exploration, they face inherent limitations. Global entropy regularization is susceptible to reward hacking, which can induce meaningless verbosity, whereas local token-selective updates struggle with the strong inductive bias of pre-trained models. To address this, we propose Latent Policy Optimization via Iterative Information Bottleneck (IIB-LPO), a novel approach that shifts exploration from statistical perturbation of token distributions to topological branching of reasoning trajectories. IIB-LPO triggers latent branching at high-entropy states to diversify reasoning paths and employs the Information Bottleneck principle both as a trajectory filter and a self-reward mechanism, ensuring concise and informative exploration. Empirical results across four mathematical reasoning benchmarks demonstrate that IIB-LPO achieves state-of-the-art performance, surpassing prior methods by margins of up to 5.3% in accuracy and 7.4% in diversity metrics.
PDF00January 13, 2026