Когда языковые модели могут научиться рассуждать при слабом контроле?

Аннотация

Крупные языковые модели демонстрируют значительный прогресс в области рассуждений благодаря обучению с подкреплением на верифицируемых вознаграждениях (RLVR). Однако по мере роста возможностей моделей построение высококачественных сигналов вознаграждения становится все более сложной задачей, что делает необходимым понимание условий, при которых RLVR может быть успешным в условиях ослабленного контроля. Мы проводим систематическое эмпирическое исследование на различных семействах моделей и областях рассуждений в трех условиях слабого контроля: недостаточное количество данных, зашумленные вознаграждения и самоконтролируемые прокси-вознаграждения. Мы обнаруживаем, что обобщаемость определяется динамикой насыщения обучающего вознаграждения: модели, способные к обобщению, демонстрируют продолжительную фазу предварительного насыщения, в течение которой обучающее вознаграждение и итоговая производительность растут совместно, тогда как модели, быстро достигающие насыщения, запоминают, а не обучаются. Мы определяем достоверность рассуждений — степень, в которой промежуточные шаги логически обосновывают конечный ответ — как свойство, предшествующее RL, которое предсказывает, в какой режим войдет модель, в то время как одно лишь разнообразие выходных данных неинформативно. Руководствуясь этими выводами, мы разделяем вклад continual предварительного обучения и контролируемой тонкой настройки, устанавливая, что SFT на явных траекториях рассуждений необходима для обобщения в условиях слабого контроля, тогда как continual предварительное обучение на данных предметной области усиливает этот эффект. Совместное применение этих методов к модели Llama3.2-3B-Base позволяет добиться обобщения во всех трех условиях, в которых базовая модель ранее не справлялась.

English

Large language models have achieved significant reasoning improvements through reinforcement learning with verifiable rewards (RLVR). Yet as model capabilities grow, constructing high-quality reward signals becomes increasingly difficult, making it essential to understand when RLVR can succeed under weaker forms of supervision. We conduct a systematic empirical study across diverse model families and reasoning domains under three weak supervision settings: scarce data, noisy rewards, and self-supervised proxy rewards. We find that generalization is governed by training reward saturation dynamics: models that generalize exhibit a prolonged pre-saturation phase during which training reward and downstream performance climb together, while models that saturate rapidly memorize rather than learn. We identify reasoning faithfulness, defined as the extent to which intermediate steps logically support the final answer, as the pre-RL property that predicts which regime a model falls into, while output diversity alone is uninformative. Motivated by these findings, we disentangle the contributions of continual pre-training and supervised fine-tuning, finding that SFT on explicit reasoning traces is necessary for generalization under weak supervision, while continual pre-training on domain data amplifies the effect. Applied together to Llama3.2-3B-Base, these interventions enable generalization across all three settings where the base model previously failed.

Когда языковые модели могут научиться рассуждать при слабом контроле?

When Can LLMs Learn to Reason with Weak Supervision?

Аннотация

Support