ChatPaper.aiChatPaper

Au-delà de la correction : Apprendre un raisonnement robuste via le transfert

Beyond Correctness: Learning Robust Reasoning via Transfer

February 9, 2026
papers.authors: Hyunseok Lee, Soheil Abbasloo, Jihoon Tack, Jinwoo Shin
cs.AI

papers.abstract

L'apprentissage par renforcement avec récompenses vérifiables (RLVR) a récemment renforcé le raisonnement des LLM, mais son accent sur l'exactitude de la réponse finale laisse une lacune critique : il ne garantit pas la robustesse du processus de raisonnement lui-même. Nous adoptons une vision philosophique simple : un raisonnement robuste devrait rester utile au-delà de l'esprit qui l'a produit, et nous traitons le raisonnement comme une forme de transfert de sens qui doit survivre à la troncation, la réinterprétation et la continuation. Sur la base de ce principe, nous introduisons l'apprentissage par renforcement avec récompense transférable (RLTR), qui opérationnalise la robustesse via une récompense de transfert testant si un préfixe de raisonnement partiel d'un modèle peut guider un modèle distinct vers la bonne réponse. Cela encourage les LLM à produire un raisonnement stable, interprétable et véritablement généralisable. Notre approche améliore la cohérence de l'échantillonnage tout en augmentant la précision de la réponse finale, et elle atteint des performances comparables en un nombre d'étapes d'entraînement substantiellement réduit. Par exemple, sur MATH500, RLTR obtient un gain de +3,6 points de pourcentage en Maj@64 par rapport au RLVR et égalise la précision moyenne du RLVR avec environ 2,5 fois moins d'étapes d'entraînement, fournissant à la fois un raisonnement plus fiable et une efficacité d'échantillonnage significativement supérieure.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has recently strengthened LLM reasoning, but its focus on final answer correctness leaves a critical gap: it does not ensure the robustness of the reasoning process itself. We adopt a simple philosophical view, robust reasoning should remain useful beyond the mind that produced it, and treat reasoning as a form of meaning transfer that must survive truncation, reinterpretation, and continuation. Building on this principle, we introduce Reinforcement Learning with Transferable Reward (RLTR), which operationalizes robustness via transfer reward that tests whether a partial reasoning prefix from one model can guide a separate model to the correct answer. This encourages LLMs to produce reasoning that is stable, interpretable, and genuinely generalizable. Our approach improves sampling consistency while improving final answer accuracy, and it reaches comparable performance in substantially fewer training steps. For example, on MATH500, RLTR achieves a +3.6%p gain in Maj@64 compared to RLVR and matches RLVR's average accuracy with roughly 2.5x fewer training steps, providing both more reliable reasoning and significantly more sample efficient.
PDF51February 13, 2026