ChatPaper.aiChatPaper

Apprentissage par les pairs dans les modèles de raisonnement

Learning from Peers in Reasoning Models

May 12, 2025
Auteurs: Tongxu Luo, Wenyu Du, Jiaxi Bi, Stephen Chung, Zhengyang Tang, Hao Yang, Min Zhang, Benyou Wang
cs.AI

Résumé

Les modèles de raisonnement à grande échelle (LRMs) possèdent la capacité de s'auto-corriger même lorsqu'ils commettent des erreurs dans leurs chemins de raisonnement. Cependant, notre étude révèle que lorsque le processus de raisonnement commence par un début court mais médiocre, il devient difficile pour le modèle de se rétablir. Nous qualifions ce phénomène de "Piège de la Dominance du Préfixe". Inspirés par des découvertes psychologiques montrant que l'interaction entre pairs peut favoriser l'auto-correction sans impacter négativement les individus déjà précis, nous proposons **Apprendre des Pairs** (LeaP) pour remédier à ce phénomène. Concrètement, à intervalles réguliers, chaque chemin de raisonnement résume son raisonnement intermédiaire et le partage avec les autres via un mécanisme de routage, permettant ainsi aux chemins d'intégrer les insights de leurs pairs lors de l'inférence. Cependant, nous observons que les modèles plus petits échouent parfois à suivre efficacement les instructions de résumé et de réflexion. Pour y remédier, nous les affinons en notre série de modèles **LeaP-T**. Les expériences sur AIME 2024, AIME 2025, AIMO 2025 et GPQA Diamond montrent que LeaP apporte des améliorations substantielles. Par exemple, QwQ-32B avec LeaP obtient près de 5 points absolus de plus que la ligne de base en moyenne, et surpasse DeepSeek-R1-671B sur trois benchmarks mathématiques avec un gain moyen de 3,3 points. Notamment, notre modèle affiné LeaP-T-7B atteint des performances comparables à celles de DeepSeek-R1-Distill-Qwen-14B sur AIME 2024. Une analyse approfondie révèle la robuste correction d'erreurs de LeaP grâce aux insights opportuns des pairs, démontrant une forte tolérance aux erreurs et une gestion efficace de la difficulté des tâches. LeaP marque une étape importante en permettant aux LRMs de collaborer pendant le raisonnement. Notre code, jeux de données et modèles sont disponibles à l'adresse https://learning-from-peers.github.io/.
English
Large Reasoning Models (LRMs) have the ability to self-correct even when they make mistakes in their reasoning paths. However, our study reveals that when the reasoning process starts with a short but poor beginning, it becomes difficult for the model to recover. We refer to this phenomenon as the "Prefix Dominance Trap". Inspired by psychological findings that peer interaction can promote self-correction without negatively impacting already accurate individuals, we propose **Learning from Peers** (LeaP) to address this phenomenon. Specifically, every tokens, each reasoning path summarizes its intermediate reasoning and shares it with others through a routing mechanism, enabling paths to incorporate peer insights during inference. However, we observe that smaller models sometimes fail to follow summarization and reflection instructions effectively. To address this, we fine-tune them into our **LeaP-T** model series. Experiments on AIME 2024, AIME 2025, AIMO 2025, and GPQA Diamond show that LeaP provides substantial improvements. For instance, QwQ-32B with LeaP achieves nearly 5 absolute points higher than the baseline on average, and surpasses DeepSeek-R1-671B on three math benchmarks with an average gain of 3.3 points. Notably, our fine-tuned LeaP-T-7B matches the performance of DeepSeek-R1-Distill-Qwen-14B on AIME 2024. In-depth analysis reveals LeaP's robust error correction by timely peer insights, showing strong error tolerance and handling varied task difficulty. LeaP marks a milestone by enabling LRMs to collaborate during reasoning. Our code, datasets, and models are available at https://learning-from-peers.github.io/ .

Summary

AI-Generated Summary

PDF342May 13, 2025