BeamPERL: Parameter-efficiënt RL met verifieerbare beloningen specialiseert compacte LLM's voor gestructureerde balkmechanica-redenering

Samenvatting

Kan reinforcement learning met harde, verifieerbare beloningen een compact taalmodel leren redeneren over natuurkunde, of leert het vooral om patronen te herkennen die naar correcte antwoorden leiden? Wij onderzoeken deze vraag door een redeneermodel van 1,5 miljard parameters te trainen op balkstatica, een klassiek technisch probleem, met behulp van parameter-efficiënte RLVR met binaire correctheidsbeloningen van symbolische oplossers, zonder door docenten gegenereerde redeneersporen. Het beste BeamPERL-checkpoint behaalt een verbetering van 66,7% in Pass@1 ten opzichte van het basismodel. De aangeleerde competentie is echter anisotroop: het model generaliseert compositioneel (meer belastingen) maar faalt onder topologische verschuivingen (verplaatste steunpunten) die dezelfde evenwichtsvergelijkingen vereisen. Tussentijdse checkpoints leveren het sterkste redeneervermogen op, terwijl voortgezette optimalisatie de robuustheid vermindert terwijl de beloning behouden blijft. Deze bevindingen onthullen een belangrijke beperking van uitlijningsmethoden op uitkomstniveau: reinforcement learning met exacte natuurkundebeloningen induceert procedurele oplossingssjablonen in plaats van internalisatie van de onderliggende vergelijkingen. De precisie van het beloningssignaal – zelfs wanneer het analytisch exact is – garandeert op zichzelf geen overdraagbaar natuurkundig redeneervermogen. Onze resultaten suggereren dat verifieerbare beloningen mogelijk moeten worden gecombineerd met gestructureerde redeneersteigers om verder te gaan dan sjabloonherkenning naar robuuste wetenschappelijke redenering.

English

Can reinforcement learning with hard, verifiable rewards teach a compact language model to reason about physics, or does it primarily learn to pattern-match toward correct answers? We study this question by training a 1.5B-parameter reasoning model on beam statics, a classic engineering problem, using parameter-efficient RLVR with binary correctness rewards from symbolic solvers, without teacher-generated reasoning traces. The best BeamPERL checkpoint achieves a 66.7% improvement in Pass@1 over the base model. However, the learned competence is anisotropic: the model generalizes compositionally (more loads) but fails under topological shifts (moved supports) that require the same equilibrium equations. Intermediate checkpoints yield the strongest reasoning, while continued optimization degrades robustness while maintaining reward. These findings reveal a key limitation of outcome-level alignment: reinforcement learning with exact physics rewards induces procedural solution templates rather than internalization of governing equations. The precision of the reward signal - even when analytically exact - does not by itself guarantee transferable physical reasoning. Our results suggest that verifiable rewards may need to be paired with structured reasoning scaffolding to move beyond template matching toward robust scientific reasoning.

BeamPERL: Parameter-efficiënt RL met verifieerbare beloningen specialiseert compacte LLM's voor gestructureerde balkmechanica-redenering

BeamPERL: Parameter-Efficient RL with Verifiable Rewards Specializes Compact LLMs for Structured Beam Mechanics Reasoning

Samenvatting

Support