CORE : La réflexion contrastive permet des améliorations rapides du raisonnement

Résumé

Les modèles de langage peuvent utiliser des récompenses vérifiables pour s'améliorer dans une grande variété de tâches de raisonnement. Cependant, les approches paramétriques (par exemple, RLVR) et non paramétriques (par exemple, l'optimisation de prompt) pour y parvenir nécessitent généralement des centaines d'échantillons d'entraînement et des milliers de passages de modèle, ce qui les rend coûteuses dans le meilleur des cas et intraîtables dans le pire. Pour relever ce défi, nous introduisons la Réflexion Contrastive (CORE), un algorithme d'apprentissage non paramétrique qui compare les traces de raisonnement passées pour générer des insights : de courtes descriptions en langage naturel de stratégies et de contraintes de raisonnement qui capturent les différences entre les tentatives de résolution réussies et échouées. À travers quatre tâches de raisonnement, nous démontrons que CORE permet une amélioration plus rapide que les méthodes paramétriques (GRPO) et non paramétriques (GEPA, RAG épisodique et MemRL), tout en utilisant moins de passages. Avec des budgets de passages fixes et aussi peu que cinq échantillons d'entraînement, nous montrons ensuite que CORE obtient des gains de performance comparables ou supérieurs à chaque baseline. Enfin, nous soulignons que CORE est également considérablement plus efficace en termes de contexte que les baselines non paramétriques, nécessitant moins de tokens de prompt tout en stockant les connaissances apprises sous forme d'insights compacts et interprétables en langage naturel. Nos résultats suggèrent donc que distiller les contrastes entre les traces de raisonnement réussies et échouées en insights abstraits et utiles peut offrir une voie plus efficace et interprétable vers l'auto-amélioration des modèles que les mises à jour de poids, l'optimisation de prompt ou la réutilisation directe des traces de raisonnement stockées.

English

Language models can use verifiable rewards to improve at a wide variety of reasoning tasks. However, both parametric (e.g. RLVR) and non-parametric (e.g. prompt optimization) approaches to doing so typically require hundreds of training samples and thousands of model rollouts, making them expensive in the best case and intractable in the worst. To address this challenge, we introduce Contrastive Reflection (CORE), a non-parametric learning algorithm that compares past reasoning traces to generate insights: short natural-language descriptions of reasoning strategies and constraints that capture differences between successful and unsuccessful problem attempts. Across four reasoning tasks, we demonstrate that CORE enables more rapid improvement than both parametric (GRPO) and non-parametric (GEPA, episodic RAG, and MemRL) methods, while using fewer rollouts. Under fixed rollout budgets with as few as five training samples, we then show that CORE also achieves comparable or greater performance gains than each baseline. Finally, we highlight how CORE is also substantially more context-efficient than non-parametric baselines, requiring fewer prompt tokens while storing learned knowledge as compact, interpretable natural-language insights. Our results therefore suggest that distilling contrasts between successful and unsuccessful reasoning traces into abstract and useful insights can provide a more efficient and interpretable route to model self-improvement than weight updates, prompt optimization, or direct reuse of stored reasoning traces.