Lernen von Gleichgestellten in Reasoning-Modellen
Learning from Peers in Reasoning Models
May 12, 2025
Autoren: Tongxu Luo, Wenyu Du, Jiaxi Bi, Stephen Chung, Zhengyang Tang, Hao Yang, Min Zhang, Benyou Wang
cs.AI
Zusammenfassung
Große Reasoning-Modelle (LRMs) besitzen die Fähigkeit, sich selbst zu korrigieren, selbst wenn sie Fehler in ihren Reasoning-Pfaden machen. Unsere Studie zeigt jedoch, dass es für das Modell schwierig wird, sich zu erholen, wenn der Reasoning-Prozess mit einem kurzen, aber schlechten Anfang beginnt. Wir bezeichnen dieses Phänomen als die „Prefix Dominance Trap“. Inspiriert von psychologischen Erkenntnissen, dass Interaktion mit Gleichgesinnten die Selbstkorrektur fördern kann, ohne bereits korrekte Individuen negativ zu beeinflussen, schlagen wir **Learning from Peers** (LeaP) vor, um dieses Phänomen zu adressieren. Konkret fasst jeder Reasoning-Pfad in regelmäßigen Abständen seine Zwischenergebnisse zusammen und teilt sie über einen Routing-Mechanismus mit anderen, wodurch Pfade während des Inferenzprozesses Einblicke von Gleichgesinnten einbeziehen können. Wir beobachten jedoch, dass kleinere Modelle manchmal Schwierigkeiten haben, Zusammenfassungs- und Reflexionsanweisungen effektiv zu befolgen. Um dies zu beheben, feintunen wir sie zu unserer **LeaP-T**-Modellreihe. Experimente auf AIME 2024, AIME 2025, AIMO 2025 und GPQA Diamond zeigen, dass LeaP erhebliche Verbesserungen bringt. Beispielsweise erreicht QwQ-32B mit LeaP im Durchschnitt fast 5 absolute Punkte mehr als die Baseline und übertrifft DeepSeek-R1-671B auf drei Mathematik-Benchmarks mit einem durchschnittlichen Gewinn von 3,3 Punkten. Bemerkenswerterweise erreicht unser feinabgestimmtes LeaP-T-7B die Leistung von DeepSeek-R1-Distill-Qwen-14B auf AIME 2024. Eine detaillierte Analyse zeigt, dass LeaP durch rechtzeitige Einblicke von Gleichgesinnten eine robuste Fehlerkorrektur ermöglicht, was eine starke Fehlertoleranz und die Bewältigung unterschiedlicher Aufgabenanforderungen demonstriert. LeaP markiert einen Meilenstein, indem es LRMs ermöglicht, während des Reasoning-Prozesses zusammenzuarbeiten. Unser Code, Datensätze und Modelle sind unter https://learning-from-peers.github.io/ verfügbar.
English
Large Reasoning Models (LRMs) have the ability to self-correct even when they
make mistakes in their reasoning paths. However, our study reveals that when
the reasoning process starts with a short but poor beginning, it becomes
difficult for the model to recover. We refer to this phenomenon as the "Prefix
Dominance Trap". Inspired by psychological findings that peer interaction can
promote self-correction without negatively impacting already accurate
individuals, we propose **Learning from Peers** (LeaP) to address this
phenomenon. Specifically, every tokens, each reasoning path summarizes its
intermediate reasoning and shares it with others through a routing mechanism,
enabling paths to incorporate peer insights during inference. However, we
observe that smaller models sometimes fail to follow summarization and
reflection instructions effectively. To address this, we fine-tune them into
our **LeaP-T** model series. Experiments on AIME 2024, AIME 2025, AIMO 2025,
and GPQA Diamond show that LeaP provides substantial improvements. For
instance, QwQ-32B with LeaP achieves nearly 5 absolute points higher than the
baseline on average, and surpasses DeepSeek-R1-671B on three math benchmarks
with an average gain of 3.3 points. Notably, our fine-tuned LeaP-T-7B matches
the performance of DeepSeek-R1-Distill-Qwen-14B on AIME 2024. In-depth analysis
reveals LeaP's robust error correction by timely peer insights, showing strong
error tolerance and handling varied task difficulty. LeaP marks a milestone by
enabling LRMs to collaborate during reasoning. Our code, datasets, and models
are available at https://learning-from-peers.github.io/ .Summary
AI-Generated Summary