ChatPaper.aiChatPaper

IIB-LPO: 반복적 정보 병목을 통한 잠재 정책 최적화

IIB-LPO: Latent Policy Optimization via Iterative Information Bottleneck

January 9, 2026
저자: Huilin Deng, Hongchen Luo, Yue Zhu, Long Li, Zhuoyue Chen, Xinghao Zhao, Ming Li, Jihai Zhang, Mengchang Wang, Yang Cao, Yu Kang
cs.AI

초록

대규모 언어 모델(LLM) 추론을 위한 검증 가능 보상 강화 학습(RLVR)의 최근 발전은 탐험 붕괴라는 지속적인 과제로 인해 저해되어 왔다. 무작위 롤아웃의 의미론적 동질성은 모델을 좁고 과도하게 최적화된 행동 패턴에 가두는 경우가 많다. 기존 방법은 정책 엔트로피를 활용하여 탐험을 장려하지만 본질적인 한계에 직면한다. 전역 엔트로피 정규화는 의미 없는 장황함을 유발할 수 있는 보상 해킹에 취약한 반면, 지역적 토큰 선택적 업데이트는 사전 훈련된 모델의 강한 귀납적 편향으로 어려움을 겪는다. 이를 해결하기 위해 우리는 토큰 분포의 통계적 변동이 아닌 추론 경로의 위상적 분기를 통한 탐험으로 전환하는 새로운 접근법인 반복 정보 병목을 통한 잠재 정책 최적화(IIB-LPO)를 제안한다. IIB-LPO는 고엔트로피 상태에서 잠재 분기를 유발하여 추론 경로를 다양화하고, 정보 병목 원리를 경로 필터 및 자가 보상 메커니즘으로 동시에 활용하여 간결하고 유익한 탐험을 보장한다. 4개의 수학적 추론 벤치마크에서의 실험 결과는 IIB-LPO가 최첨단 성능을 달성하며, 기존 방법 대비 정확도에서 최대 5.3%, 다양성 지표에서 7.4%의 차이로 앞섬을 입증하였다.
English
Recent advances in Reinforcement Learning with Verifiable Rewards (RLVR) for Large Language Model (LLM) reasoning have been hindered by a persistent challenge: exploration collapse. The semantic homogeneity of random rollouts often traps models in narrow, over-optimized behaviors. While existing methods leverage policy entropy to encourage exploration, they face inherent limitations. Global entropy regularization is susceptible to reward hacking, which can induce meaningless verbosity, whereas local token-selective updates struggle with the strong inductive bias of pre-trained models. To address this, we propose Latent Policy Optimization via Iterative Information Bottleneck (IIB-LPO), a novel approach that shifts exploration from statistical perturbation of token distributions to topological branching of reasoning trajectories. IIB-LPO triggers latent branching at high-entropy states to diversify reasoning paths and employs the Information Bottleneck principle both as a trajectory filter and a self-reward mechanism, ensuring concise and informative exploration. Empirical results across four mathematical reasoning benchmarks demonstrate that IIB-LPO achieves state-of-the-art performance, surpassing prior methods by margins of up to 5.3% in accuracy and 7.4% in diversity metrics.
PDF00January 13, 2026