BeamPERL: Parameter-effizientes Reinforcement Learning mit verifizierbaren Belohnungen spezialisiert kompakte LLMs für strukturierte Strahlmechanik-Beweisführung

Zusammenfassung

Kann Verstärkungslernen mit harten, verifizierbaren Belohnungen einem kompakten Sprachmodell beibringen, physikalisch zu schlussfolgern, oder lernt es primär, Muster zu erkennen, die zu korrekten Antworten führen? Wir untersuchen diese Frage, indem wir ein Reasoning-Modell mit 1,5 Milliarden Parametern auf Balkenstatik, ein klassisches Ingenieurproblem, trainieren. Dabei verwenden wir parameter-effizientes RLVR mit binären Korrektheitsbelohnungen von symbolischen Solvern, ohne von Lehrkräften generierte Reasoning-Traces. Der beste BeamPERL-Checkpoint erreicht eine Verbesserung von 66,7 % in Pass@1 gegenüber dem Basismodell. Die erlernte Kompetenz ist jedoch anisotrop: Das Modell verallgemeinert kompositionell (mehr Lasten), scheitert aber bei topologischen Verschiebungen (verschobene Auflager), die dieselben Gleichgewichtsgleichungen erfordern. Intermediate Checkpoints erzielen das stärkste Reasoning, während fortgesetzte Optimierung die Robustheit verschlechtert, obwohl die Belohnung hoch bleibt. Diese Ergebnisse offenbaren eine zentrale Grenze der Ausrichtung auf Ergebnisebene: Verstärkungslernen mit exakten physikalischen Belohnungen induziert prozedurale Lösungstemplates statt einer Verinnerlichung der zugrundeliegenden Gleichungen. Die Präzision des Belohnungssignals – selbst wenn sie analytisch exakt ist – gewährleistet nicht automatisch übertragbares physikalisches Reasoning. Unsere Resultate legen nahe, dass verifizierbare Belohnungen möglicherweise mit strukturierten Reasoning-Hilfsgerüsten kombiniert werden müssen, um über reine Template-Erkennung hinaus zu robustem wissenschaftlichem Schließen zu gelangen.

English

Can reinforcement learning with hard, verifiable rewards teach a compact language model to reason about physics, or does it primarily learn to pattern-match toward correct answers? We study this question by training a 1.5B-parameter reasoning model on beam statics, a classic engineering problem, using parameter-efficient RLVR with binary correctness rewards from symbolic solvers, without teacher-generated reasoning traces. The best BeamPERL checkpoint achieves a 66.7% improvement in Pass@1 over the base model. However, the learned competence is anisotropic: the model generalizes compositionally (more loads) but fails under topological shifts (moved supports) that require the same equilibrium equations. Intermediate checkpoints yield the strongest reasoning, while continued optimization degrades robustness while maintaining reward. These findings reveal a key limitation of outcome-level alignment: reinforcement learning with exact physics rewards induces procedural solution templates rather than internalization of governing equations. The precision of the reward signal - even when analytically exact - does not by itself guarantee transferable physical reasoning. Our results suggest that verifiable rewards may need to be paired with structured reasoning scaffolding to move beyond template matching toward robust scientific reasoning.

BeamPERL: Parameter-effizientes Reinforcement Learning mit verifizierbaren Belohnungen spezialisiert kompakte LLMs für strukturierte Strahlmechanik-Beweisführung

BeamPERL: Parameter-Efficient RL with Verifiable Rewards Specializes Compact LLMs for Structured Beam Mechanics Reasoning

Zusammenfassung

Support