Да здравствует баланс: Оптимизация политики на основе деревьев, управляемая информационным узким местом

Аннотация

Недавние достижения в области онлайн-обучения с подкреплением (RL) для больших языковых моделей (LLM) продемонстрировали многообещающие результаты в сложных задачах рассуждения. Однако они часто демонстрируют несбалансированный компромисс между исследованием и эксплуатацией, что приводит к нестабильной оптимизации и неоптимальной производительности. Мы представляем IB-Score — новую метрику, основанную на теории информационного узкого места (Information Bottleneck), которая оценивает баланс между исследованием и эксплуатацией политики, количественно определяя компромисс между разнообразием рассуждений на уровне шагов и взаимной информацией, разделяемой с правильным ответом. Анализ на основе IB-Score показывает, что популярные онлайн-подходы RL (например, GRPO) с распространёнными регуляризаторами неспособны последовательно поддерживать баланс в процессе обучения, что приводит к неоптимальным результатам. Для решения этой проблемы мы предлагаем древовидную оптимизацию политики на основе информационного узкого места (IB-TPO) — принципиальный фреймворк, который формулирует IB-Score как целевой показатель мелкозернистой оптимизации и использует новую стратегию древовидной выборки с направляющей IB, что не только повышает эффективность онлайн-выборки на 50% больше траекторий при том же бюджете токенов, но и повторно использует древовидную структуру для эффективной оценки Монте-Карло IB-Score. Обширные эксперименты на стандартных эталонных тестах показывают, что наш метод значительно превосходит базовую модель GRPO на 2.9%–3.6%, а также превосходит другие передовые онлайн-подходы RL. Наш код доступен по адресу https://github.com/alibaba/EfficientRL.

English

Recent advances in online reinforcement learning (RL) for large language models (LLMs) have demonstrated promising performance in complex reasoning tasks. However, they often exhibit an imbalanced exploration-exploitation trade-off, resulting in unstable optimization and sub-optimal performance. We introduce IB-Score, a novel metric grounded in Information Bottleneck theory that evaluates policy's exploration-exploitation balance by quantifying the trade-off between step-level reasoning diversity and mutual information shared with the correct answer. Analysis based on IB-Score shows that popular online RL approaches (e.g., GRPO) with common regularizers fail to consistently maintain balance during training with suboptimal results. To address this, we propose Information Bottleneck-driven Tree-based Policy Optimization (IB-TPO), a principled framework that formulates IB-Score as a fine-grained optimization objective and utilizes a novel IB-guided tree sampling strategy that not only improves the efficiency of online sampling with 50% more trajectories under the same token budget, but also reuses the tree structure for effective IB-Score Monte Carlo estimation. Extensive experiments across standard benchmarks show that our method significantly outperforms GRPO baseline by 2.9% to 3.6% and also outperforms other state-of-the-art online RL approaches. Our code is available at https://github.com/alibaba/EfficientRL.