BeamPERL: RL com Parâmetros Eficientes e Recompensas Verificáveis Especializa LLMs Compactos para Raciocínio em Mecânica Estrutural de Vigas

Resumo

A aprendizagem por reforço com recompensas rígidas e verificáveis pode ensinar um modelo de linguagem compacto a raciocinar sobre física, ou aprenderá principalmente a corresponder a padrões que levam a respostas corretas? Investigamos esta questão treinando um modelo de raciocínio de 1,5B de parâmetros em estática de vigas, um problema clássico de engenharia, usando RLVR (Reinforcement Learning with Verifiable Rewards) eficiente em parâmetros com recompensas binárias de correção de solucionadores simbólicos, sem traços de raciocínio gerados por um professor. O melhor checkpoint do BeamPERL alcança uma melhoria de 66,7% no Pass@1 em relação ao modelo base. No entanto, a competência aprendida é anisotrópica: o modelo generaliza de forma composicional (mais cargas), mas falha sob mudanças topológicas (apoios deslocados) que requerem as mesmas equações de equilíbrio. Checkpoints intermédios produzem o raciocínio mais robusto, enquanto a otimização contínua degrada a robustez mantendo a recompensa. Estas descobertas revelam uma limitação fundamental do alinhamento ao nível do resultado: a aprendizagem por reforço com recompensas exatas de física induz *templates* de solução procedural em vez da internalização das equações governantes. A precisão do sinal de recompensa - mesmo quando analiticamente exata - não garante, por si só, um raciocínio físico transferível. Os nossos resultados sugerem que recompensas verificáveis podem precisar de ser emparelhadas com um suporte de raciocínio estruturado para ir além da correspondência de padrões e alcançar um raciocínio científico robusto.

English

Can reinforcement learning with hard, verifiable rewards teach a compact language model to reason about physics, or does it primarily learn to pattern-match toward correct answers? We study this question by training a 1.5B-parameter reasoning model on beam statics, a classic engineering problem, using parameter-efficient RLVR with binary correctness rewards from symbolic solvers, without teacher-generated reasoning traces. The best BeamPERL checkpoint achieves a 66.7% improvement in Pass@1 over the base model. However, the learned competence is anisotropic: the model generalizes compositionally (more loads) but fails under topological shifts (moved supports) that require the same equilibrium equations. Intermediate checkpoints yield the strongest reasoning, while continued optimization degrades robustness while maintaining reward. These findings reveal a key limitation of outcome-level alignment: reinforcement learning with exact physics rewards induces procedural solution templates rather than internalization of governing equations. The precision of the reward signal - even when analytically exact - does not by itself guarantee transferable physical reasoning. Our results suggest that verifiable rewards may need to be paired with structured reasoning scaffolding to move beyond template matching toward robust scientific reasoning.

BeamPERL: RL com Parâmetros Eficientes e Recompensas Verificáveis Especializa LLMs Compactos para Raciocínio em Mecânica Estrutural de Vigas

BeamPERL: Parameter-Efficient RL with Verifiable Rewards Specializes Compact LLMs for Structured Beam Mechanics Reasoning

Resumo

Support