CORE: Контрастивная рефлексия обеспечивает быстрое улучшение способности к рассуждению

Аннотация

Языковые модели могут использовать верифицируемые вознаграждения для улучшения в широком спектре задач, требующих рассуждений. Однако как параметрические (например, RLVR), так и непараметрические (например, оптимизация промптов) подходы к этому обычно требуют сотен обучающих примеров и тысяч прогонов модели, что делает их дорогостоящими в лучшем случае и нереализуемыми в худшем. Для решения этой задачи мы представляем Contrastive Reflection (CORE) — непараметрический обучающий алгоритм, который сравнивает прошлые следы рассуждений для генерации инсайтов: кратких описаний на естественном языке стратегий и ограничений рассуждений, отражающих различия между успешными и неуспешными попытками решения задач. На четырех задачах, требующих рассуждений, мы демонстрируем, что CORE обеспечивает более быстрое улучшение, чем как параметрические (GRPO), так и непараметрические (GEPA, эпизодический RAG и MemRL) методы, при этом используя меньше прогонов. При фиксированных бюджетах прогонов и всего пяти обучающих примерах мы затем показываем, что CORE также достигает сравнимого или большего прироста производительности по сравнению с каждым из базовых методов. Наконец, мы подчеркиваем, что CORE существенно более контекстно-эффективен, чем непараметрические базовые методы, требуя меньше токенов в промпте при сохранении изученных знаний в виде компактных интерпретируемых инсайтов на естественном языке. Таким образом, наши результаты свидетельствуют о том, что дистилляция контрастов между успешными и неуспешными следами рассуждений в абстрактные и полезные инсайты может обеспечить более эффективный и интерпретируемый путь к самоулучшению модели, чем обновление весов, оптимизация промптов или прямое повторное использование сохраненных следов рассуждений.

English

Language models can use verifiable rewards to improve at a wide variety of reasoning tasks. However, both parametric (e.g. RLVR) and non-parametric (e.g. prompt optimization) approaches to doing so typically require hundreds of training samples and thousands of model rollouts, making them expensive in the best case and intractable in the worst. To address this challenge, we introduce Contrastive Reflection (CORE), a non-parametric learning algorithm that compares past reasoning traces to generate insights: short natural-language descriptions of reasoning strategies and constraints that capture differences between successful and unsuccessful problem attempts. Across four reasoning tasks, we demonstrate that CORE enables more rapid improvement than both parametric (GRPO) and non-parametric (GEPA, episodic RAG, and MemRL) methods, while using fewer rollouts. Under fixed rollout budgets with as few as five training samples, we then show that CORE also achieves comparable or greater performance gains than each baseline. Finally, we highlight how CORE is also substantially more context-efficient than non-parametric baselines, requiring fewer prompt tokens while storing learned knowledge as compact, interpretable natural-language insights. Our results therefore suggest that distilling contrasts between successful and unsuccessful reasoning traces into abstract and useful insights can provide a more efficient and interpretable route to model self-improvement than weight updates, prompt optimization, or direct reuse of stored reasoning traces.