BeamPERL: 검증 가능한 보상을 통한 매개변수 효율적 강화학습이 구조적 빔 역학 추론을 위한 소형 LLM을 특화합니다
BeamPERL: Parameter-Efficient RL with Verifiable Rewards Specializes Compact LLMs for Structured Beam Mechanics Reasoning
March 4, 2026
저자: Tarjei Paule Hage, Markus J. Buehler
cs.AI
초록
단단하고 검증 가능한 보상을 활용한 강화 학습이 컴팩트 언어 모델에게 물리 추론을 가르칠 수 있는가, 아니면 정답을 향한 패턴 매칭을 주로 학습하는가? 우리는 이 질문을 연구하기 위해 1.5B 파라미터 추론 모델을 고전 공학 문제인 보 정역학에 대해 훈련시켰다. 이때 교사 생성 추론 궤적 없이 기호 해석기(symbolic solver)의 이진 정확도 보상을 사용한 파라미터 효율적 RLVR(Reinforcement Learning with Verifiable Rewards) 방법을 적용했다. 최고의 BeamPERL 체크포인트는 기본 모델 대비 Pass@1에서 66.7% 향상을 달성했다. 그러나 학습된 능력은 이방성(anisotropic)을 보였다: 모델은 구성적으로(더 많은 하중)는 일반화했지만, 동일한 평형 방정식을 필요로 하는 위상학적 변화(지지대 이동) 상황에서는 실패했다. 중간 체크포인트에서 가장 강력한 추론 능력을 보였으나, 최적화가 지속되면 보상은 유지되지만 강건성은 저하되었다. 이러한 결과는 결과 수준 정렬(outcome-level alignment)의 핵심 한계를 드러낸다: 정확한 물리 보상을 이용한 강화 학습은 지배 방정식의 내재화보다는 절차적 해법 템플릿을 유도한다. 보상 신호의 정밀도(분석적으로 정확할지라도)만으로는 이전 가능한 물리 추론을 보장하지 않는다. 우리의 결과는 검증 가능한 보상이 강건한 과학적 추론을 위해 템플릿 매칭을 넘어서기 위해 구조화된 추론 비계(scaffolding)와 결합되어야 할 수 있음을 시사한다.
English
Can reinforcement learning with hard, verifiable rewards teach a compact language model to reason about physics, or does it primarily learn to pattern-match toward correct answers? We study this question by training a 1.5B-parameter reasoning model on beam statics, a classic engineering problem, using parameter-efficient RLVR with binary correctness rewards from symbolic solvers, without teacher-generated reasoning traces. The best BeamPERL checkpoint achieves a 66.7% improvement in Pass@1 over the base model. However, the learned competence is anisotropic: the model generalizes compositionally (more loads) but fails under topological shifts (moved supports) that require the same equilibrium equations. Intermediate checkpoints yield the strongest reasoning, while continued optimization degrades robustness while maintaining reward. These findings reveal a key limitation of outcome-level alignment: reinforcement learning with exact physics rewards induces procedural solution templates rather than internalization of governing equations. The precision of the reward signal - even when analytically exact - does not by itself guarantee transferable physical reasoning. Our results suggest that verifiable rewards may need to be paired with structured reasoning scaffolding to move beyond template matching toward robust scientific reasoning.