BeamPERL : RL à paramètres efficaces avec récompenses vérifiables spécialise les LLM compacts pour le raisonnement en mécanique structurale des poutres

Résumé

L'apprentissage par renforcement avec des récompenses rigoureuses et vérifiables peut-il enseigner à un modèle linguistique compact à raisonner en physique, ou apprend-il principalement à reconnaître des motifs pour produire des réponses correctes ? Nous étudions cette question en entraînant un modèle de raisonnement de 1,5 milliard de paramètres sur la statique des poutres, un problème classique d'ingénierie, en utilisant l'algorithme RLVR à efficacité paramétrique avec des récompenses binaires de correction provenant de solveurs symboliques, et sans traces de raisonnement générées par un enseignant. Le meilleur checkpoint de BeamPERL réalise une amélioration de 66,7 % du Pass@1 par rapport au modèle de base. Cependant, la compétence apprise est anisotrope : le modèle généralise de manière compositionnelle (charges supplémentaires) mais échoue face à des modifications topologiques (appuis déplacés) qui nécessitent pourtant les mêmes équations d'équilibre. Les checkpoints intermédiaires produisent le raisonnement le plus solide, tandis qu'une optimisation prolongée dégrade la robustesse tout en maintenant la récompense. Ces résultats révèlent une limitation clé de l'alignement au niveau des résultats : l'apprentissage par renforcement avec des récompenses physiques exactes induit des modèles de solution procéduraux plutôt qu'une internalisation des équations gouvernantes. La précision du signal de récompense - même lorsqu'elle est analytiquement exacte - ne garantit pas à elle seule un raisonnement physique transférable. Nos résultats suggèrent que les récompenses vérifiables pourraient devoir être associées à un échafaudage de raisonnement structuré pour dépasser la reconnaissance de motifs et tendre vers un raisonnement scientifique robuste.

English

Can reinforcement learning with hard, verifiable rewards teach a compact language model to reason about physics, or does it primarily learn to pattern-match toward correct answers? We study this question by training a 1.5B-parameter reasoning model on beam statics, a classic engineering problem, using parameter-efficient RLVR with binary correctness rewards from symbolic solvers, without teacher-generated reasoning traces. The best BeamPERL checkpoint achieves a 66.7% improvement in Pass@1 over the base model. However, the learned competence is anisotropic: the model generalizes compositionally (more loads) but fails under topological shifts (moved supports) that require the same equilibrium equations. Intermediate checkpoints yield the strongest reasoning, while continued optimization degrades robustness while maintaining reward. These findings reveal a key limitation of outcome-level alignment: reinforcement learning with exact physics rewards induces procedural solution templates rather than internalization of governing equations. The precision of the reward signal - even when analytically exact - does not by itself guarantee transferable physical reasoning. Our results suggest that verifiable rewards may need to be paired with structured reasoning scaffolding to move beyond template matching toward robust scientific reasoning.

BeamPERL : RL à paramètres efficaces avec récompenses vérifiables spécialise les LLM compacts pour le raisonnement en mécanique structurale des poutres

BeamPERL: Parameter-Efficient RL with Verifiable Rewards Specializes Compact LLMs for Structured Beam Mechanics Reasoning

Résumé

Support