La Alineación Modelo-Tarea Impulsa Resultados Distintos en Aprendizaje por Refuerzo
Model-Task Alignment Drives Distinct RL Outcomes
August 28, 2025
Autores: Haoze Wu, Cheng Wang, Wenshuo Zhao, Junxian He
cs.AI
Resumen
Los avances recientes en la aplicación del aprendizaje por refuerzo (RL, por sus siglas en inglés) a los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han llevado a un progreso sustancial. En particular, se han reportado una serie de fenómenos notables, aunque a menudo contraintuitivos, en los LLMs, que exhiben patrones no típicamente observados en entornos tradicionales de RL. Por ejemplo, afirmaciones destacadas incluyen que un solo ejemplo de entrenamiento puede igualar el rendimiento logrado con un conjunto de datos completo, que la señal de recompensa no necesita ser muy precisa y que el entrenamiento únicamente con muestras negativas puede igualar o incluso superar métodos sofisticados basados en recompensas. Sin embargo, las condiciones precisas bajo las cuales estas observaciones se mantienen —y, críticamente, cuándo fallan— siguen sin estar claras. En este trabajo, identificamos un factor clave que diferencia las observaciones de RL: si el modelo preentrenado ya exhibe una fuerte Alineación Modelo-Tarea, medida por la precisión pass@k en la tarea evaluada. A través de un examen sistemático y exhaustivo de una serie de afirmaciones contraintuitivas, respaldado por una validación experimental rigurosa en diferentes arquitecturas de modelos y dominios de tareas, nuestros hallazgos muestran que, aunque el entrenamiento estándar de RL sigue siendo consistentemente robusto en todos los entornos, muchos de estos resultados contraintuitivos surgen solo cuando el modelo y la tarea ya exhiben una fuerte alineación modelo-tarea. Por el contrario, estas técnicas no logran impulsar un aprendizaje sustancial en regímenes más desafiantes, donde los métodos estándar de RL siguen siendo efectivos.
English
Recent advances in applying reinforcement learning (RL) to large language
models (LLMs) have led to substantial progress. In particular, a series of
remarkable yet often counterintuitive phenomena have been reported in LLMs,
exhibiting patterns not typically observed in traditional RL settings. For
example, notable claims include that a single training example can match the
performance achieved with an entire dataset, that the reward signal does not
need to be very accurate, and that training solely with negative samples can
match or even surpass sophisticated reward-based methods. However, the precise
conditions under which these observations hold - and, critically, when they
fail - remain unclear. In this work, we identify a key factor that
differentiates RL observations: whether the pretrained model already exhibits
strong Model-Task Alignment, as measured by pass@k accuracy on the evaluated
task. Through a systematic and comprehensive examination of a series of
counterintuitive claims, supported by rigorous experimental validation across
different model architectures and task domains, our findings show that while
standard RL training remains consistently robust across settings, many of these
counterintuitive results arise only when the model and task already exhibit
strong model-task alignment. In contrast, these techniques fail to drive
substantial learning in more challenging regimes, where standard RL methods
remain effective.