BeamPERL: параметрически эффективное обучение с подкреплением с верифицируемыми вознаграждениями для специализации компактных больших языковых моделей на задачах структурированного логического вывода в механике балок

Аннотация

Может ли обучение с подкреплением с использованием строгих, верифицируемых вознаграждений научить компактную языковую модель рассуждать о физике, или же она в основном учится сопоставлять шаблоны для получения правильных ответов? Мы исследуем этот вопрос, обучая модель для рассуждений с 1.5 миллиардами параметров на задачах статики балок — классической инженерной проблеме — с использованием параметрически эффективного метода RLVR и бинарных вознаграждений за корректность от символьных решателей, без предоставления сгенерированных учителем трасс рассуждений. Лучшая контрольная точка BeamPERL демонстрирует улучшение Pass@1 на 66.7% по сравнению с базовой моделью. Однако полученная компетенция является анизотропной: модель обобщается композиционно (больше нагрузок), но терпит неудачу при топологических изменениях (перемещенные опоры), которые требуют применения тех же уравнений равновесия. Промежуточные контрольные точки дают наиболее сильные рассуждения, тогда как продолжение оптимизации снижает устойчивость при сохранении уровня вознаграждения. Эти результаты выявляют ключевое ограничение выравнивания на уровне результата: обучение с подкреплением с точными физическими вознаграждениями формирует процедурные шаблоны решений, а не усвоение управляющих уравнений. Точность сигнала вознаграждения — даже аналитически точного — сама по себе не гарантирует переносимого физического мышления. Наши результаты позволяют предположить, что верифицируемые вознаграждения, возможно, необходимо сочетать со структурированными каркасами рассуждений, чтобы выйти за рамки сопоставления шаблонов к устойчивому научному мышлению.

English

Can reinforcement learning with hard, verifiable rewards teach a compact language model to reason about physics, or does it primarily learn to pattern-match toward correct answers? We study this question by training a 1.5B-parameter reasoning model on beam statics, a classic engineering problem, using parameter-efficient RLVR with binary correctness rewards from symbolic solvers, without teacher-generated reasoning traces. The best BeamPERL checkpoint achieves a 66.7% improvement in Pass@1 over the base model. However, the learned competence is anisotropic: the model generalizes compositionally (more loads) but fails under topological shifts (moved supports) that require the same equilibrium equations. Intermediate checkpoints yield the strongest reasoning, while continued optimization degrades robustness while maintaining reward. These findings reveal a key limitation of outcome-level alignment: reinforcement learning with exact physics rewards induces procedural solution templates rather than internalization of governing equations. The precision of the reward signal - even when analytically exact - does not by itself guarantee transferable physical reasoning. Our results suggest that verifiable rewards may need to be paired with structured reasoning scaffolding to move beyond template matching toward robust scientific reasoning.

BeamPERL: Parameter-Efficient RL with Verifiable Rewards Specializes Compact LLMs for Structured Beam Mechanics Reasoning

Аннотация

Support