ChatPaper.aiChatPaper

BeamPERL: 検証可能な報酬によるパラメータ効率型強化学習が構造化ビーム力学推論に特化したコンパクトLLMを実現

BeamPERL: Parameter-Efficient RL with Verifiable Rewards Specializes Compact LLMs for Structured Beam Mechanics Reasoning

March 4, 2026
著者: Tarjei Paule Hage, Markus J. Buehler
cs.AI

要旨

硬く検証可能な報酬を用いた強化学習は、コンパクト言語モデルに物理推論を教えることができるのか、それとも正答へのパターンマッチングを主に学習するのか?この問題を、古典的な工学問題である梁の静力学を用いて検証する。我々は、教師データとなる推論過程を一切用いず、記号ソルバーからの二値の正解報酬のみを用いたパラメータ効率的なRLVRにより、1.5Bパラメータの推論モデルを訓練した。最良のBeamPERLチェックポイントは、ベースモデルに対してPass@1で66.7%の改善を達成した。しかし、獲得された能力は異方性を示した:モデルは合成的な一般化(荷重の増加)は可能であったが、同じ釣り合い方程式を必要とするトポロジーの変化(支承の移動)には対応できなかった。中間チェックポイントが最も強固な推論能力を示し、最適化を継続すると報酬は維持されるものの頑健性は低下した。これらの発見は、結果レベルでのアライメントの重要な限界を明らかにする:厳密な物理報酬を用いた強化学習は、支配方程式の内在化ではなく、手続き的な解答テンプレートを誘導する。報酬信号の精度が解析的に厳密であっても、それだけでは転移可能な物理推論は保証されない。我々の結果は、検証可能な報酬を、テンプレートマッチングを超えた頑健な科学的推論に向けて推進するには、構造化された推論の足場と組み合わせる必要があることを示唆する。
English
Can reinforcement learning with hard, verifiable rewards teach a compact language model to reason about physics, or does it primarily learn to pattern-match toward correct answers? We study this question by training a 1.5B-parameter reasoning model on beam statics, a classic engineering problem, using parameter-efficient RLVR with binary correctness rewards from symbolic solvers, without teacher-generated reasoning traces. The best BeamPERL checkpoint achieves a 66.7% improvement in Pass@1 over the base model. However, the learned competence is anisotropic: the model generalizes compositionally (more loads) but fails under topological shifts (moved supports) that require the same equilibrium equations. Intermediate checkpoints yield the strongest reasoning, while continued optimization degrades robustness while maintaining reward. These findings reveal a key limitation of outcome-level alignment: reinforcement learning with exact physics rewards induces procedural solution templates rather than internalization of governing equations. The precision of the reward signal - even when analytically exact - does not by itself guarantee transferable physical reasoning. Our results suggest that verifiable rewards may need to be paired with structured reasoning scaffolding to move beyond template matching toward robust scientific reasoning.
PDF12March 6, 2026