CORE: Kontrastive Reflexion ermöglicht schnelle Verbesserungen im Reasoning

Zusammenfassung

Sprachmodelle können überprüfbare Belohnungen nutzen, um sich bei einer Vielzahl von Argumentationsaufgaben zu verbessern. Allerdings erfordern sowohl parametrische (z. B. RLVR) als auch nicht-parametrische Ansätze (z. B. Promptoptimierung) hierfür typischerweise hunderte Trainingsbeispiele und tausende Modell-Rollouts, was sie bestenfalls teuer und schlimmstenfalls undurchführbar macht. Um dieser Herausforderung zu begegnen, stellen wir Contrastive Reflection (CORE) vor, einen nicht-parametrischen Lernalgorithmus, der vergangene Argumentationsspuren vergleicht, um Erkenntnisse zu generieren: kurze, natürlichsprachliche Beschreibungen von Argumentationsstrategien und Randbedingungen, die Unterschiede zwischen erfolgreichen und erfolglosen Problemlösungsversuchen erfassen. Anhand von vier Argumentationsaufgaben zeigen wir, dass CORE eine schnellere Verbesserung ermöglicht als sowohl parametrische (GRPO) als auch nicht-parametrische Methoden (GEPA, episodisches RAG und MemRL), während gleichzeitig weniger Rollouts benötigt werden. Unter festgelegten Rollout-Budgets mit nur fünf Trainingsbeispielen zeigen wir zudem, dass CORE ähnliche oder größere Leistungssteigerungen als jede Baseline erzielt. Schließlich heben wir hervor, dass CORE auch deutlich kontexteffizienter ist als nicht-parametrische Baselines, da weniger Prompt-Token benötigt werden, während das gelernte Wissen als kompakte, interpretierbare natürlichsprachliche Erkenntnisse gespeichert wird. Unsere Ergebnisse deuten daher darauf hin, dass die Destillation von Kontrasten zwischen erfolgreichen und erfolglosen Argumentationsspuren in abstrakte und nützliche Erkenntnisse einen effizienteren und interpretierbareren Weg zur Selbstverbesserung des Modells bieten kann als Gewichtsaktualisierungen, Promptoptimierung oder die direkte Wiederverwendung gespeicherter Argumentationsspuren.

English

Language models can use verifiable rewards to improve at a wide variety of reasoning tasks. However, both parametric (e.g. RLVR) and non-parametric (e.g. prompt optimization) approaches to doing so typically require hundreds of training samples and thousands of model rollouts, making them expensive in the best case and intractable in the worst. To address this challenge, we introduce Contrastive Reflection (CORE), a non-parametric learning algorithm that compares past reasoning traces to generate insights: short natural-language descriptions of reasoning strategies and constraints that capture differences between successful and unsuccessful problem attempts. Across four reasoning tasks, we demonstrate that CORE enables more rapid improvement than both parametric (GRPO) and non-parametric (GEPA, episodic RAG, and MemRL) methods, while using fewer rollouts. Under fixed rollout budgets with as few as five training samples, we then show that CORE also achieves comparable or greater performance gains than each baseline. Finally, we highlight how CORE is also substantially more context-efficient than non-parametric baselines, requiring fewer prompt tokens while storing learned knowledge as compact, interpretable natural-language insights. Our results therefore suggest that distilling contrasts between successful and unsuccessful reasoning traces into abstract and useful insights can provide a more efficient and interpretable route to model self-improvement than weight updates, prompt optimization, or direct reuse of stored reasoning traces.