BeamPERL: RL a Parametri Efficienti con Ricompense Verificabili Specializza LLM Compatti per il Ragionamento Strutturato sulla Meccanica delle Travi

Abstract

L’apprendimento per rinforzo con ricompense verificabili e rigorose può insegnare a un modello linguistico compatto a ragionare sulla fisica, o apprende principalmente a riconoscere pattern per produrre risposte corrette? Studiamo questa questione addestrando un modello di ragionamento da 1,5 miliardi di parametri sulla statica delle travi, un classico problema ingegneristico, utilizzando RLVR efficiente in parametri con ricompense binarie di correttezza provenienti da risolutori simbolici, senza tracce di ragionamento generate da un insegnante. Il checkpoint migliore di BeamPERL raggiunge un miglioramento del 66,7% in Pass@1 rispetto al modello base. Tuttavia, la competenza appresa è anisotropa: il modello generalizza in modo composizionale (più carichi) ma fallisce in caso di variazioni topologiche (appoggi spostati) che richiedono le stesse equazioni di equilibrio. I checkpoint intermedi producono il ragionamento più solido, mentre l'ottimizzazione prolungata riduce la robustezza pur mantenendo la ricompensa. Questi risultati rivelano una limitazione fondamentale dell'allineamento a livello di risultato: l'apprendimento per rinforzo con ricompense fisiche esatte induce modelli procedurali di soluzione piuttosto che l'interiorizzazione delle equazioni governative. La precisione del segnale di ricompensa - anche quando analiticamente esatta - di per sé non garantisce un ragionamento fisico trasferibile. I nostri risultati suggeriscono che le ricompense verificabili potrebbero dover essere abbinate a un'impalcatura di ragionamento strutturato per andare oltre il riconoscimento di modelli verso un ragionamento scientifico robusto.

English

Can reinforcement learning with hard, verifiable rewards teach a compact language model to reason about physics, or does it primarily learn to pattern-match toward correct answers? We study this question by training a 1.5B-parameter reasoning model on beam statics, a classic engineering problem, using parameter-efficient RLVR with binary correctness rewards from symbolic solvers, without teacher-generated reasoning traces. The best BeamPERL checkpoint achieves a 66.7% improvement in Pass@1 over the base model. However, the learned competence is anisotropic: the model generalizes compositionally (more loads) but fails under topological shifts (moved supports) that require the same equilibrium equations. Intermediate checkpoints yield the strongest reasoning, while continued optimization degrades robustness while maintaining reward. These findings reveal a key limitation of outcome-level alignment: reinforcement learning with exact physics rewards induces procedural solution templates rather than internalization of governing equations. The precision of the reward signal - even when analytically exact - does not by itself guarantee transferable physical reasoning. Our results suggest that verifiable rewards may need to be paired with structured reasoning scaffolding to move beyond template matching toward robust scientific reasoning.

BeamPERL: RL a Parametri Efficienti con Ricompense Verificabili Specializza LLM Compatti per il Ragionamento Strutturato sulla Meccanica delle Travi

BeamPERL: Parameter-Efficient RL with Verifiable Rewards Specializes Compact LLMs for Structured Beam Mechanics Reasoning

Abstract

Support