ChatPaper.aiChatPaper

IIB-LPO : Optimisation de Politique Latente par Goulot d'Information Itératif

IIB-LPO: Latent Policy Optimization via Iterative Information Bottleneck

January 9, 2026
papers.authors: Huilin Deng, Hongchen Luo, Yue Zhu, Long Li, Zhuoyue Chen, Xinghao Zhao, Ming Li, Jihai Zhang, Mengchang Wang, Yang Cao, Yu Kang
cs.AI

papers.abstract

Les progrès récents en Apprentissage par Renforcement avec Récompenses Vérifiables (RLVR) pour le raisonnement des Grands Modèles de Langage (LLM) sont freinés par un défi persistant : l'effondrement de l'exploration. L'homogénéité sémantique des déploiements aléatoires piège souvent les modèles dans des comportements étroits et suroptimisés. Si les méthodes existantes exploitent l'entropie de la politique pour encourager l'exploration, elles rencontrent des limitations inhérentes. La régularisation par entropie globale est sensible au détournement de récompense, pouvant induire une verbosité insignifiante, tandis que les mises à jour locales sélectives par token peinent avec le biais inductif fort des modèles pré-entraînés. Pour y remédier, nous proposons l'Optimisation de Politique Latente par Goulot d'Étranglement Informationnel Itératif (IIB-LPO), une approche novatrice qui déplace l'exploration de la perturbation statistique des distributions de tokens vers la ramification topologique des trajectoires de raisonnement. IIB-LPO déclenche une ramification latente dans les états à haute entropie pour diversifier les chemins de raisonnement et utilise le principe du Goulot d'Étranglement Informationnel à la fois comme filtre de trajectoire et mécanisme d'auto-récompense, garantissant une exploration concise et informative. Les résultats empiriques sur quatre benchmarks de raisonnement mathématique démontrent qu'IIB-LPO atteint des performances à la pointe de l'état de l'art, surpassant les méthodes antérieures avec des marges allant jusqu'à 5,3 % en précision et 7,4 % dans les métriques de diversité.
English
Recent advances in Reinforcement Learning with Verifiable Rewards (RLVR) for Large Language Model (LLM) reasoning have been hindered by a persistent challenge: exploration collapse. The semantic homogeneity of random rollouts often traps models in narrow, over-optimized behaviors. While existing methods leverage policy entropy to encourage exploration, they face inherent limitations. Global entropy regularization is susceptible to reward hacking, which can induce meaningless verbosity, whereas local token-selective updates struggle with the strong inductive bias of pre-trained models. To address this, we propose Latent Policy Optimization via Iterative Information Bottleneck (IIB-LPO), a novel approach that shifts exploration from statistical perturbation of token distributions to topological branching of reasoning trajectories. IIB-LPO triggers latent branching at high-entropy states to diversify reasoning paths and employs the Information Bottleneck principle both as a trajectory filter and a self-reward mechanism, ensuring concise and informative exploration. Empirical results across four mathematical reasoning benchmarks demonstrate that IIB-LPO achieves state-of-the-art performance, surpassing prior methods by margins of up to 5.3% in accuracy and 7.4% in diversity metrics.
PDF00January 13, 2026