Leren van peers in redeneermodellen

Samenvatting

Grote Redeneermodellen (LRMs) hebben het vermogen om zichzelf te corrigeren, zelfs wanneer ze fouten maken in hun redeneerpaden. Uit ons onderzoek blijkt echter dat wanneer het redeneerproces begint met een kort maar slecht begin, het voor het model moeilijk wordt om te herstellen. We verwijzen naar dit fenomeen als de "Prefix Dominance Trap". Geïnspireerd door psychologische bevindingen dat interactie met peers zelfcorrectie kan bevorderen zonder negatieve gevolgen voor reeds accurate individuen, stellen we **Learning from Peers** (LeaP) voor om dit fenomeen aan te pakken. Specifiek samenvat elk redeneerpad zijn tussentijdse redenering en deelt deze met anderen via een routeringsmechanisme, waardoor paden tijdens de inferentie inzichten van peers kunnen integreren. We merken echter op dat kleinere modellen soms moeite hebben om samenvattings- en reflectie-instructies effectief op te volgen. Om dit aan te pakken, fine-tunen we ze in onze **LeaP-T** modelreeks. Experimenten op AIME 2024, AIME 2025, AIMO 2025 en GPQA Diamond tonen aan dat LeaP aanzienlijke verbeteringen biedt. QwQ-32B met LeaP behaalt bijvoorbeeld bijna 5 absolute punten hoger dan de baseline gemiddeld, en overtreft DeepSeek-R1-671B op drie wiskundige benchmarks met een gemiddelde winst van 3,3 punten. Opmerkelijk is dat onze gefinetunede LeaP-T-7B de prestaties van DeepSeek-R1-Distill-Qwen-14B op AIME 2024 evenaart. Diepgaande analyse onthult de robuuste foutcorrectie van LeaP door tijdige inzichten van peers, wat sterke fouttolerantie en het omgaan met verschillende taakmoeilijkheden aantoont. LeaP markeert een mijlpaal door LRMs in staat te stellen samen te werken tijdens het redeneren. Onze code, datasets en modellen zijn beschikbaar op https://learning-from-peers.github.io/.

English

Large Reasoning Models (LRMs) have the ability to self-correct even when they make mistakes in their reasoning paths. However, our study reveals that when the reasoning process starts with a short but poor beginning, it becomes difficult for the model to recover. We refer to this phenomenon as the "Prefix Dominance Trap". Inspired by psychological findings that peer interaction can promote self-correction without negatively impacting already accurate individuals, we propose **Learning from Peers** (LeaP) to address this phenomenon. Specifically, every tokens, each reasoning path summarizes its intermediate reasoning and shares it with others through a routing mechanism, enabling paths to incorporate peer insights during inference. However, we observe that smaller models sometimes fail to follow summarization and reflection instructions effectively. To address this, we fine-tune them into our **LeaP-T** model series. Experiments on AIME 2024, AIME 2025, AIMO 2025, and GPQA Diamond show that LeaP provides substantial improvements. For instance, QwQ-32B with LeaP achieves nearly 5 absolute points higher than the baseline on average, and surpasses DeepSeek-R1-671B on three math benchmarks with an average gain of 3.3 points. Notably, our fine-tuned LeaP-T-7B matches the performance of DeepSeek-R1-Distill-Qwen-14B on AIME 2024. In-depth analysis reveals LeaP's robust error correction by timely peer insights, showing strong error tolerance and handling varied task difficulty. LeaP marks a milestone by enabling LRMs to collaborate during reasoning. Our code, datasets, and models are available at https://learning-from-peers.github.io/ .

Leren van peers in redeneermodellen

Learning from Peers in Reasoning Models

Samenvatting

Summary

Support

Support