CORE: La reflexión contrastiva permite mejoras rápidas en el razonamiento

Resumen

Los modelos de lenguaje pueden utilizar recompensas verificables para mejorar en una amplia variedad de tareas de razonamiento. Sin embargo, tanto los enfoques paramétricos (por ejemplo, RLVR) como los no paramétricos (por ejemplo, la optimización de instrucciones) para lograrlo suelen requerir cientos de muestras de entrenamiento y miles de ejecuciones del modelo, lo que los hace costosos en el mejor de los casos e inviables en el peor. Para abordar este desafío, presentamos Reflexión Contrastiva (CORE), un algoritmo de aprendizaje no paramétrico que compara trazas de razonamiento pasadas para generar percepciones: descripciones breves en lenguaje natural de estrategias y restricciones de razonamiento que capturan las diferencias entre intentos exitosos y no exitosos de un problema. En cuatro tareas de razonamiento, demostramos que CORE permite una mejora más rápida que tanto los métodos paramétricos (GRPO) como los no paramétricos (GEPA, RAG episódico y MemRL), utilizando menos ejecuciones. Bajo presupuestos fijos de ejecuciones con tan solo cinco muestras de entrenamiento, mostramos además que CORE logra ganancias de rendimiento comparables o superiores a cada línea base. Finalmente, destacamos que CORE también es sustancialmente más eficiente en contexto que las líneas base no paramétricas, al requerir menos tokens de instrucción mientras almacena el conocimiento aprendido como percepciones compactas e interpretables en lenguaje natural. Por lo tanto, nuestros resultados sugieren que destilar los contrastes entre trazas de razonamiento exitosas y no exitosas en percepciones abstractas y útiles puede proporcionar una ruta más eficiente e interpretable hacia la automejora del modelo que las actualizaciones de pesos, la optimización de instrucciones o la reutilización directa de trazas de razonamiento almacenadas.

English

Language models can use verifiable rewards to improve at a wide variety of reasoning tasks. However, both parametric (e.g. RLVR) and non-parametric (e.g. prompt optimization) approaches to doing so typically require hundreds of training samples and thousands of model rollouts, making them expensive in the best case and intractable in the worst. To address this challenge, we introduce Contrastive Reflection (CORE), a non-parametric learning algorithm that compares past reasoning traces to generate insights: short natural-language descriptions of reasoning strategies and constraints that capture differences between successful and unsuccessful problem attempts. Across four reasoning tasks, we demonstrate that CORE enables more rapid improvement than both parametric (GRPO) and non-parametric (GEPA, episodic RAG, and MemRL) methods, while using fewer rollouts. Under fixed rollout budgets with as few as five training samples, we then show that CORE also achieves comparable or greater performance gains than each baseline. Finally, we highlight how CORE is also substantially more context-efficient than non-parametric baselines, requiring fewer prompt tokens while storing learned knowledge as compact, interpretable natural-language insights. Our results therefore suggest that distilling contrasts between successful and unsuccessful reasoning traces into abstract and useful insights can provide a more efficient and interpretable route to model self-improvement than weight updates, prompt optimization, or direct reuse of stored reasoning traces.