CORE: Contrastieve reflectie maakt snelle verbeteringen in redeneren mogelijk.

Samenvatting

Taalmodellen kunnen verifieerbare beloningen gebruiken om te verbeteren in een breed scala aan redeneertaken. Zowel parametrische (bijv. RLVR) als niet-parametrische (bijv. promptoptimalisatie) benaderingen om dit te bereiken vereisen echter doorgaans honderden trainingsvoorbeelden en duizenden modelrollouts, wat ze in het gunstigste geval duur en in het ongunstigste geval onuitvoerbaar maakt. Om deze uitdaging aan te pakken introduceren we Contrastive Reflection (CORE), een niet-parametrisch leer-algoritme dat eerdere redeneersporen vergelijkt om inzichten te genereren: korte beschrijvingen in natuurlijke taal van redeneerstrategieën en beperkingen die de verschillen tussen succesvolle en mislukte probleempogingen vastleggen. In vier redeneertaken tonen we aan dat CORE snellere verbetering mogelijk maakt dan zowel parametrische (GRPO) als niet-parametrische (GEPA, episodische RAG en MemRL) methoden, terwijl het minder rollouts gebruikt. Met vaste rolloutbudgetten en zo min mogelijk vijf trainingsvoorbeelden laten we vervolgens zien dat CORE ook vergelijkbare of grotere prestatieverbeteringen behaalt dan elke referentiemethode. Tot slot benadrukken we dat CORE aanzienlijk context-efficiënter is dan niet-parametrische referentiemethoden, met minder prompt tokens terwijl het geleerde kennis opslaat als compacte, interpreteerbare inzichten in natuurlijke taal. Onze resultaten suggereren daarom dat het distilleren van contrasten tussen succesvolle en mislukte redeneersporen in abstracte en nuttige inzichten een efficiëntere en interpreteerbaardere weg naar modelzelfverbetering kan bieden dan gewichtsupdates, promptoptimalisatie of direct hergebruik van opgeslagen redeneersporen.

English

Language models can use verifiable rewards to improve at a wide variety of reasoning tasks. However, both parametric (e.g. RLVR) and non-parametric (e.g. prompt optimization) approaches to doing so typically require hundreds of training samples and thousands of model rollouts, making them expensive in the best case and intractable in the worst. To address this challenge, we introduce Contrastive Reflection (CORE), a non-parametric learning algorithm that compares past reasoning traces to generate insights: short natural-language descriptions of reasoning strategies and constraints that capture differences between successful and unsuccessful problem attempts. Across four reasoning tasks, we demonstrate that CORE enables more rapid improvement than both parametric (GRPO) and non-parametric (GEPA, episodic RAG, and MemRL) methods, while using fewer rollouts. Under fixed rollout budgets with as few as five training samples, we then show that CORE also achieves comparable or greater performance gains than each baseline. Finally, we highlight how CORE is also substantially more context-efficient than non-parametric baselines, requiring fewer prompt tokens while storing learned knowledge as compact, interpretable natural-language insights. Our results therefore suggest that distilling contrasts between successful and unsuccessful reasoning traces into abstract and useful insights can provide a more efficient and interpretable route to model self-improvement than weight updates, prompt optimization, or direct reuse of stored reasoning traces.