Rendre le raisonnement mathématique adaptatif
Making Mathematical Reasoning Adaptive
October 6, 2025
papers.authors: Zhejian Lai, Xiang Geng, Zhijun Wang, Yang Bai, Jiahuan Li, Rongxiang Weng, Jingang Wang, Xuezhi Cao, Xunliang Cai, Shujian Huang
cs.AI
papers.abstract
Le raisonnement mathématique constitue un indicateur primordial de l'intelligence des grands modèles de langage (LLM). Cependant, les LLM existants présentent des lacunes en matière de robustesse et de généralisation. Cet article attribue ces insuffisances au raisonnement fallacieux, c'est-à-dire à la production de réponses basées sur des caractéristiques superficielles. Pour relever ce défi, nous proposons le cadre AdaR afin de permettre un raisonnement adaptatif, dans lequel les modèles s'appuient sur une logique de résolution de problèmes pour produire des réponses. AdaR synthétise des requêtes logiquement équivalentes en faisant varier les valeurs des variables, et entraîne les modèles avec RLVR sur ces données pour pénaliser la logique fallacieuse tout en encourageant la logique adaptative. Pour améliorer la qualité des données, nous extrayons la logique de résolution de problèmes de la requête originale et générons la réponse correspondante par exécution de code, puis appliquons une vérification de cohérence. Les résultats expérimentaux démontrent qu'AdaR améliore la robustesse et la généralisation, obtenant une amélioration substantielle dans le raisonnement mathématique tout en maintenant une haute efficacité des données. L'analyse indique que la synthèse de données et RLVR fonctionnent de manière coordonnée pour permettre un raisonnement adaptatif dans les LLM. Les analyses ultérieures dégagent des insights clés sur l'effet des facteurs critiques et l'applicabilité pour instruire les LLM. Notre projet est disponible à l'adresse https://github.com/LaiZhejian/AdaR.
English
Mathematical reasoning is a primary indicator of large language models (LLMs)
intelligence. However, existing LLMs exhibit failures of robustness and
generalization. This paper attributes these deficiencies to spurious reasoning,
i.e., producing answers from superficial features. To address this challenge,
we propose the AdaR framework to enable adaptive reasoning, wherein models rely
on problem-solving logic to produce answers. AdaR synthesizes logically
equivalent queries by varying variable values, and trains models with RLVR on
these data to penalize spurious logic while encouraging adaptive logic. To
improve data quality, we extract the problem-solving logic from the original
query and generate the corresponding answer by code execution, then apply a
sanity check. Experimental results demonstrate that AdaR improves robustness
and generalization, achieving substantial improvement in mathematical reasoning
while maintaining high data efficiency. Analysis indicates that data synthesis
and RLVR function in a coordinated manner to enable adaptive reasoning in LLMs.
Subsequent analyses derive key design insights into the effect of critical
factors and the applicability to instruct LLMs. Our project is available at
https://github.com/LaiZhejian/AdaR