La RA peut-elle enseigner le raisonnement à long terme aux LLM ? L'expressivité est la clé

Résumé

L'apprentissage par renforcement (RL) a été appliqué pour améliorer le raisonnement des grands modèles de langage (LLM), mais l'étude systématique de la façon dont l'entraînement évolue avec la difficulté de la tâche a été entravée par l'absence d'environnements contrôlés et évolutifs. Nous présentons ScaleLogic, un cadre de raisonnement logique synthétique qui offre un contrôle indépendant sur deux axes de difficulté : la profondeur de la planification de preuve requise (c'est-à-dire l'horizon) et l'expressivité de la logique sous-jacente. Notre cadre proposé prend en charge un large éventail de logiques, allant d'une logique simple basée uniquement sur l'implication ("si-alors") vers un raisonnement du premier ordre plus expressif avec la conjonction ("et"), la disjonction ("ou"), la négation ("non") et la quantification universelle ("pour tout"). En utilisant ce cadre, nous montrons que la quantité de calcul d'entraînement par renforcement T suit une loi de puissance par rapport à la profondeur de raisonnement D (T ∝ D^γ, R² > 0,99), et que l'exposant d'échelle γ augmente de manière monotone avec l'expressivité logique, passant de 1,04 à 2,60. Sur des benchmarks de raisonnement mathématique et général en aval, les paramètres d'entraînement plus expressifs produisent à la fois des gains de performance plus importants (jusqu'à +10,66 points) et un transfert plus efficace en termes de calcul par rapport aux paramètres moins expressifs, démontrant que ce sur quoi un modèle est entraîné, et pas seulement la quantité d'entraînement, façonne le transfert en aval. Nous montrons en outre que la relation de loi de puissance est valable pour plusieurs méthodes de RL, et qu'un entraînement basé sur un curriculum améliore considérablement l'efficacité de la mise à l'échelle.

English

Reinforcement learning (RL) has been applied to improve large language model (LLM) reasoning, yet the systematic study of how training scales with task difficulty has been hampered by the lack of controlled, scalable environments. We introduce ScaleLogic, a synthetic logical reasoning framework that offers independent control over two axes of difficulty: the depth of the required proof planning (i.e., the horizon) and the expressiveness of the underlying logic. Our proposed framework supports a wide range of logics: from simple implication-only logic ("if-then") towards more expressive first-order reasoning with conjunction ("and"), disjunction ("or"), negation ("not"), and universal quantification ("for all"). Using this framework, we show that the RL training compute T follows a power law with respect to reasoning depth D (T propto D^γ, R^{2} > 0.99), and that the scaling exponent γ increases monotonically with logical expressiveness, from 1.04 to 2.60. On downstream mathematics and general reasoning benchmarks, more expressive training settings yield both larger performance gains (up to +10.66 points) and more compute-efficient transfer compared to less expressive settings, demonstrating that what a model is trained on, not just how much it is trained, shapes downstream transfer. We further show that the power-law relationship holds across multiple RL methods, and curriculum-based training substantially improves scaling efficiency.

La RA peut-elle enseigner le raisonnement à long terme aux LLM ? L'expressivité est la clé

Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key

Résumé

Support