¡Viva el Equilibrio: Optimización de Políticas Basada en Árboles Impulsada por el Cuello de Botella de Información

Resumen

Avances recientes en aprendizaje por refuerzo en línea (RL) para modelos de lenguaje de gran escala (LLMs) han demostrado un rendimiento prometedor en tareas de razonamiento complejo. Sin embargo, a menudo presentan un equilibrio desbalanceado entre exploración y explotación, lo que resulta en una optimización inestable y un rendimiento subóptimo. Presentamos IB-Score, una métrica novedosa basada en la teoría del Cuello de Botella Informacional que evalúa el equilibrio entre exploración y explotación de la política, cuantificando el compromiso entre la diversidad de razonamiento a nivel de paso y la información mutua compartida con la respuesta correcta. El análisis basado en IB-Score muestra que los enfoques populares de RL en línea (por ejemplo, GRPO) con regularizadores comunes no logran mantener consistentemente el equilibrio durante el entrenamiento, obteniendo resultados subóptimos. Para abordar esto, proponemos Optimización de Política Basada en Árboles Impulsada por Cuello de Botella Informacional (IB-TPO), un marco fundamentado que formula IB-Score como un objetivo de optimización detallado y utiliza una estrategia novedosa de muestreo de árbol guiado por IB que no solo mejora la eficiencia del muestreo en línea con un 50% más de trayectorias bajo el mismo presupuesto de tokens, sino que también reutiliza la estructura del árbol para una estimación efectiva de IB-Score mediante Monte Carlo. Experimentos exhaustivos en benchmarks estándar muestran que nuestro método supera significativamente la línea base GRPO en un 2.9% a 3.6% y también supera a otros enfoques de RL en línea de última generación. Nuestro código está disponible en https://github.com/alibaba/EfficientRL.

English

Recent advances in online reinforcement learning (RL) for large language models (LLMs) have demonstrated promising performance in complex reasoning tasks. However, they often exhibit an imbalanced exploration-exploitation trade-off, resulting in unstable optimization and sub-optimal performance. We introduce IB-Score, a novel metric grounded in Information Bottleneck theory that evaluates policy's exploration-exploitation balance by quantifying the trade-off between step-level reasoning diversity and mutual information shared with the correct answer. Analysis based on IB-Score shows that popular online RL approaches (e.g., GRPO) with common regularizers fail to consistently maintain balance during training with suboptimal results. To address this, we propose Information Bottleneck-driven Tree-based Policy Optimization (IB-TPO), a principled framework that formulates IB-Score as a fine-grained optimization objective and utilizes a novel IB-guided tree sampling strategy that not only improves the efficiency of online sampling with 50% more trajectories under the same token budget, but also reuses the tree structure for effective IB-Score Monte Carlo estimation. Extensive experiments across standard benchmarks show that our method significantly outperforms GRPO baseline by 2.9% to 3.6% and also outperforms other state-of-the-art online RL approaches. Our code is available at https://github.com/alibaba/EfficientRL.