ChatPaper.aiChatPaper

Razonamiento con Exploración: Una Perspectiva desde la Entropía

Reasoning with Exploration: An Entropy Perspective

June 17, 2025
Autores: Daixuan Cheng, Shaohan Huang, Xuekai Zhu, Bo Dai, Wayne Xin Zhao, Zhenliang Zhang, Furu Wei
cs.AI

Resumen

El equilibrio entre exploración y explotación es un objetivo central en el aprendizaje por refuerzo (RL, por sus siglas en inglés). A pesar de los avances recientes en la mejora del razonamiento de los modelos de lenguaje (LM, por sus siglas en inglés), la mayoría de los métodos tienden hacia la explotación y, cada vez más, se enfrentan a mesetas de rendimiento. En este trabajo, revisitamos la entropía —una señal de exploración en RL— y examinamos su relación con el razonamiento exploratorio en los LM. A través de un análisis empírico, descubrimos fuertes correlaciones positivas entre las regiones de alta entropía y tres tipos de acciones de razonamiento exploratorio: (1) tokens clave que determinan o conectan pasos lógicos, (2) acciones reflexivas como la autoverificación y la corrección, y (3) comportamientos raros poco explorados por los LM base. Motivados por esto, introducimos una modificación mínima al RL estándar con solo una línea de código: aumentamos la función de ventaja con un término basado en la entropía. A diferencia de los métodos tradicionales de máxima entropía, que fomentan la exploración promoviendo la incertidumbre, nosotros fomentamos la exploración promoviendo cadenas de razonamiento más largas y profundas. Cabe destacar que nuestro método logra ganancias significativas en la métrica Pass@K —un estimador del límite superior de las capacidades de razonamiento de los LM— incluso cuando se evalúa con valores de K extremadamente grandes, lo que empuja los límites del razonamiento de los LM.
English
Balancing exploration and exploitation is a central goal in reinforcement learning (RL). Despite recent advances in enhancing language model (LM) reasoning, most methods lean toward exploitation, and increasingly encounter performance plateaus. In this work, we revisit entropy -- a signal of exploration in RL -- and examine its relationship to exploratory reasoning in LMs. Through empirical analysis, we uncover strong positive correlations between high-entropy regions and three types of exploratory reasoning actions: (1) pivotal tokens that determine or connect logical steps, (2) reflective actions such as self-verification and correction, and (3) rare behaviors under-explored by the base LMs. Motivated by this, we introduce a minimal modification to standard RL with only one line of code: augmenting the advantage function with an entropy-based term. Unlike traditional maximum-entropy methods which encourage exploration by promoting uncertainty, we encourage exploration by promoting longer and deeper reasoning chains. Notably, our method achieves significant gains on the Pass@K metric -- an upper-bound estimator of LM reasoning capabilities -- even when evaluated with extremely large K values, pushing the boundaries of LM reasoning.
PDF194June 18, 2025