За пределами "Эврики!": К систематическому согласованию метаспособностей в крупных моделях рассужденийBeyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large
Reasoning Models
Крупные модели рассуждений (LRMs) уже обладают скрытой способностью к длинным цепочкам логических рассуждений. Предыдущие исследования показали, что обучение с подкреплением (RL), основанное на результатах, может случайным образом вызывать сложные поведенческие паттерны рассуждений, такие как самокоррекция, возврат к предыдущим шагам и процессы проверки, часто называемые "моментом озарения" модели. Однако время возникновения и согласованность этих эмерджентных поведений остаются непредсказуемыми и неуправляемыми, что ограничивает масштабируемость и надежность способностей LRM к рассуждениям. Чтобы устранить эти ограничения, мы выходим за рамки зависимости от подсказок и случайных "моментов озарения". Вместо этого мы явно выравниваем модели по трем метаспособностям: дедукции, индукции и абдукции, используя автоматически генерируемые, самопроверяемые задачи. Наш трехэтапный процесс — индивидуальное выравнивание, объединение в пространстве параметров и предметно-ориентированное обучение с подкреплением — повышает производительность более чем на 10% по сравнению с базовыми моделями, настроенными на инструкции. Более того, предметно-ориентированное RL, начиная с выровненной контрольной точки, дает дополнительный средний прирост в 2% на верхней границе производительности в тестах по математике, программированию и естественным наукам, демонстрируя, что явное выравнивание метаспособностей предлагает масштабируемую и надежную основу для рассуждений. Код доступен по адресу: https://github.com/zhiyuanhubj/Meta-Ability-Alignment.