Leren van peers in redeneermodellen
Learning from Peers in Reasoning Models
May 12, 2025
Auteurs: Tongxu Luo, Wenyu Du, Jiaxi Bi, Stephen Chung, Zhengyang Tang, Hao Yang, Min Zhang, Benyou Wang
cs.AI
Samenvatting
Grote Redeneermodellen (LRMs) hebben het vermogen om zichzelf te corrigeren, zelfs wanneer ze fouten maken in hun redeneerpaden. Uit ons onderzoek blijkt echter dat wanneer het redeneerproces begint met een kort maar slecht begin, het voor het model moeilijk wordt om te herstellen. We verwijzen naar dit fenomeen als de "Prefix Dominance Trap". Geïnspireerd door psychologische bevindingen dat interactie met peers zelfcorrectie kan bevorderen zonder negatieve gevolgen voor reeds accurate individuen, stellen we **Learning from Peers** (LeaP) voor om dit fenomeen aan te pakken. Specifiek samenvat elk redeneerpad zijn tussentijdse redenering en deelt deze met anderen via een routeringsmechanisme, waardoor paden tijdens de inferentie inzichten van peers kunnen integreren. We merken echter op dat kleinere modellen soms moeite hebben om samenvattings- en reflectie-instructies effectief op te volgen. Om dit aan te pakken, fine-tunen we ze in onze **LeaP-T** modelreeks. Experimenten op AIME 2024, AIME 2025, AIMO 2025 en GPQA Diamond tonen aan dat LeaP aanzienlijke verbeteringen biedt. QwQ-32B met LeaP behaalt bijvoorbeeld bijna 5 absolute punten hoger dan de baseline gemiddeld, en overtreft DeepSeek-R1-671B op drie wiskundige benchmarks met een gemiddelde winst van 3,3 punten. Opmerkelijk is dat onze gefinetunede LeaP-T-7B de prestaties van DeepSeek-R1-Distill-Qwen-14B op AIME 2024 evenaart. Diepgaande analyse onthult de robuuste foutcorrectie van LeaP door tijdige inzichten van peers, wat sterke fouttolerantie en het omgaan met verschillende taakmoeilijkheden aantoont. LeaP markeert een mijlpaal door LRMs in staat te stellen samen te werken tijdens het redeneren. Onze code, datasets en modellen zijn beschikbaar op https://learning-from-peers.github.io/.
English
Large Reasoning Models (LRMs) have the ability to self-correct even when they
make mistakes in their reasoning paths. However, our study reveals that when
the reasoning process starts with a short but poor beginning, it becomes
difficult for the model to recover. We refer to this phenomenon as the "Prefix
Dominance Trap". Inspired by psychological findings that peer interaction can
promote self-correction without negatively impacting already accurate
individuals, we propose **Learning from Peers** (LeaP) to address this
phenomenon. Specifically, every tokens, each reasoning path summarizes its
intermediate reasoning and shares it with others through a routing mechanism,
enabling paths to incorporate peer insights during inference. However, we
observe that smaller models sometimes fail to follow summarization and
reflection instructions effectively. To address this, we fine-tune them into
our **LeaP-T** model series. Experiments on AIME 2024, AIME 2025, AIMO 2025,
and GPQA Diamond show that LeaP provides substantial improvements. For
instance, QwQ-32B with LeaP achieves nearly 5 absolute points higher than the
baseline on average, and surpasses DeepSeek-R1-671B on three math benchmarks
with an average gain of 3.3 points. Notably, our fine-tuned LeaP-T-7B matches
the performance of DeepSeek-R1-Distill-Qwen-14B on AIME 2024. In-depth analysis
reveals LeaP's robust error correction by timely peer insights, showing strong
error tolerance and handling varied task difficulty. LeaP marks a milestone by
enabling LRMs to collaborate during reasoning. Our code, datasets, and models
are available at https://learning-from-peers.github.io/ .Summary
AI-Generated Summary