BeamPERL: RL Eficiente en Parámetros con Recompensas Verificables Especializa Modelos de Lenguaje Compactos para el Razonamiento en Mecánica Estructural de Vigas
BeamPERL: Parameter-Efficient RL with Verifiable Rewards Specializes Compact LLMs for Structured Beam Mechanics Reasoning
March 4, 2026
Autores: Tarjei Paule Hage, Markus J. Buehler
cs.AI
Resumen
¿Puede el aprendizaje por refuerzo con recompensas duras y verificables enseñar a un modelo de lenguaje compacto a razonar sobre física, o principalmente aprende a hacer coincidencia de patrones hacia respuestas correctas? Estudiamos esta cuestión entrenando un modelo de razonamiento de 1.500 millones de parámetros en estática de vigas, un problema clásico de ingeniería, utilizando RLVR eficiente en parámetros con recompensas binarias de corrección de solucionadores simbólicos, sin trazas de razonamiento generadas por un profesor. El mejor checkpoint de BeamPERL logra una mejora del 66,7% en Pass@1 sobre el modelo base. Sin embargo, la competencia aprendida es anisótropa: el modelo generaliza composicionalmente (más cargas) pero falla ante cambios topológicos (apoyos desplazados) que requieren las mismas ecuaciones de equilibrio. Los checkpoints intermedios producen el razonamiento más sólido, mientras que la optimización continuada degrada la robustez manteniendo la recompensa. Estos hallazgos revelan una limitación clave de la alineación a nivel de resultado: el aprendizaje por refuerzo con recompensas físicas exactas induce plantillas de solución procedurales en lugar de la internalización de las ecuaciones gobernantes. La precisión de la señal de recompensa -incluso cuando es analíticamente exacta- no garantiza por sí sola un razonamiento físico transferible. Nuestros resultados sugieren que las recompensas verificables pueden necesitar combinarse con un andamiaje de razonamiento estructurado para ir más allá de la coincidencia de patrones hacia un razonamiento científico robusto.
English
Can reinforcement learning with hard, verifiable rewards teach a compact language model to reason about physics, or does it primarily learn to pattern-match toward correct answers? We study this question by training a 1.5B-parameter reasoning model on beam statics, a classic engineering problem, using parameter-efficient RLVR with binary correctness rewards from symbolic solvers, without teacher-generated reasoning traces. The best BeamPERL checkpoint achieves a 66.7% improvement in Pass@1 over the base model. However, the learned competence is anisotropic: the model generalizes compositionally (more loads) but fails under topological shifts (moved supports) that require the same equilibrium equations. Intermediate checkpoints yield the strongest reasoning, while continued optimization degrades robustness while maintaining reward. These findings reveal a key limitation of outcome-level alignment: reinforcement learning with exact physics rewards induces procedural solution templates rather than internalization of governing equations. The precision of the reward signal - even when analytically exact - does not by itself guarantee transferable physical reasoning. Our results suggest that verifiable rewards may need to be paired with structured reasoning scaffolding to move beyond template matching toward robust scientific reasoning.