ChatPaper.aiChatPaper

Más allá de la corrección: Aprendizaje de razonamiento robusto mediante transferencia

Beyond Correctness: Learning Robust Reasoning via Transfer

February 9, 2026
Autores: Hyunseok Lee, Soheil Abbasloo, Jihoon Tack, Jinwoo Shin
cs.AI

Resumen

El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) ha fortalecido recientemente el razonamiento de los LLM, pero su enfoque en la corrección de la respuesta final deja una brecha crítica: no garantiza la solidez del proceso de razonamiento en sí. Adoptamos una perspectiva filosófica simple: un razonamiento sólido debe seguir siendo útil más allá de la mente que lo produjo, y tratamos el razonamiento como una forma de transferencia de significado que debe sobrevivir a la truncación, reinterpretación y continuación. Basándonos en este principio, presentamos el Aprendizaje por Refuerzo con Recompensa Transferible (RLTR), que operacionaliza la solidez mediante una *recompensa de transferencia* que prueba si un prefijo de razonamiento parcial de un modelo puede guiar a un modelo separado hacia la respuesta correcta. Esto incentiva a los LLM a producir un razonamiento que sea estable, interpretable y genuinamente generalizable. Nuestro enfoque mejora la consistencia del muestreo al mismo tiempo que mejora la precisión de la respuesta final, y alcanza un rendimiento comparable en sustancialmente menos pasos de entrenamiento. Por ejemplo, en MATH500, RLTR logra una ganancia de +3.6%p en Maj@64 en comparación con RLVR y iguala la precisión promedio de RLVR con aproximadamente 2.5 veces menos pasos de entrenamiento, proporcionando tanto un razonamiento más confiable como una eficiencia muestral significativamente mayor.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has recently strengthened LLM reasoning, but its focus on final answer correctness leaves a critical gap: it does not ensure the robustness of the reasoning process itself. We adopt a simple philosophical view, robust reasoning should remain useful beyond the mind that produced it, and treat reasoning as a form of meaning transfer that must survive truncation, reinterpretation, and continuation. Building on this principle, we introduce Reinforcement Learning with Transferable Reward (RLTR), which operationalizes robustness via transfer reward that tests whether a partial reasoning prefix from one model can guide a separate model to the correct answer. This encourages LLMs to produce reasoning that is stable, interpretable, and genuinely generalizable. Our approach improves sampling consistency while improving final answer accuracy, and it reaches comparable performance in substantially fewer training steps. For example, on MATH500, RLTR achieves a +3.6%p gain in Maj@64 compared to RLVR and matches RLVR's average accuracy with roughly 2.5x fewer training steps, providing both more reliable reasoning and significantly more sample efficient.
PDF51February 13, 2026