Apprendimento dai pari nei modelli di ragionamento
Learning from Peers in Reasoning Models
May 12, 2025
Autori: Tongxu Luo, Wenyu Du, Jiaxi Bi, Stephen Chung, Zhengyang Tang, Hao Yang, Min Zhang, Benyou Wang
cs.AI
Abstract
I Large Reasoning Models (LRM) hanno la capacità di autocorreggersi anche quando commettono errori nei loro percorsi di ragionamento. Tuttavia, il nostro studio rivela che quando il processo di ragionamento inizia con un inizio breve ma di scarsa qualità, diventa difficile per il modello recuperare. Definiamo questo fenomeno come la "Trappola della Dominanza del Prefisso". Ispirati da risultati psicologici che dimostrano come l'interazione tra pari possa promuovere l'autocorrezione senza influire negativamente sugli individui già accurati, proponiamo **Learning from Peers** (LeaP) per affrontare questo fenomeno. Nello specifico, a intervalli regolari, ogni percorso di ragionamento riassume il proprio ragionamento intermedio e lo condivide con gli altri attraverso un meccanismo di routing, consentendo ai percorsi di incorporare le intuizioni dei pari durante l'inferenza. Tuttavia, osserviamo che i modelli più piccoli a volte non riescono a seguire efficacemente le istruzioni di riassunto e riflessione. Per risolvere questo problema, li ottimizziamo nella nostra serie di modelli **LeaP-T**. Gli esperimenti su AIME 2024, AIME 2025, AIMO 2025 e GPQA Diamond dimostrano che LeaP apporta miglioramenti sostanziali. Ad esempio, QwQ-32B con LeaP ottiene quasi 5 punti assoluti in più rispetto alla baseline in media e supera DeepSeek-R1-671B su tre benchmark matematici con un guadagno medio di 3,3 punti. In particolare, il nostro modello ottimizzato LeaP-T-7B eguaglia le prestazioni di DeepSeek-R1-Distill-Qwen-14B su AIME 2024. Un'analisi approfondita rivela la robusta correzione degli errori di LeaP grazie a intuizioni tempestive dei pari, mostrando una forte tolleranza agli errori e una gestione efficace della variabilità della difficoltà dei task. LeaP rappresenta una pietra miliare, consentendo ai LRM di collaborare durante il ragionamento. Il nostro codice, dataset e modelli sono disponibili su https://learning-from-peers.github.io/.
English
Large Reasoning Models (LRMs) have the ability to self-correct even when they
make mistakes in their reasoning paths. However, our study reveals that when
the reasoning process starts with a short but poor beginning, it becomes
difficult for the model to recover. We refer to this phenomenon as the "Prefix
Dominance Trap". Inspired by psychological findings that peer interaction can
promote self-correction without negatively impacting already accurate
individuals, we propose **Learning from Peers** (LeaP) to address this
phenomenon. Specifically, every tokens, each reasoning path summarizes its
intermediate reasoning and shares it with others through a routing mechanism,
enabling paths to incorporate peer insights during inference. However, we
observe that smaller models sometimes fail to follow summarization and
reflection instructions effectively. To address this, we fine-tune them into
our **LeaP-T** model series. Experiments on AIME 2024, AIME 2025, AIMO 2025,
and GPQA Diamond show that LeaP provides substantial improvements. For
instance, QwQ-32B with LeaP achieves nearly 5 absolute points higher than the
baseline on average, and surpasses DeepSeek-R1-671B on three math benchmarks
with an average gain of 3.3 points. Notably, our fine-tuned LeaP-T-7B matches
the performance of DeepSeek-R1-Distill-Qwen-14B on AIME 2024. In-depth analysis
reveals LeaP's robust error correction by timely peer insights, showing strong
error tolerance and handling varied task difficulty. LeaP marks a milestone by
enabling LRMs to collaborate during reasoning. Our code, datasets, and models
are available at https://learning-from-peers.github.io/ .