Aprendizaje a partir de pares en modelos de razonamiento
Learning from Peers in Reasoning Models
May 12, 2025
Autores: Tongxu Luo, Wenyu Du, Jiaxi Bi, Stephen Chung, Zhengyang Tang, Hao Yang, Min Zhang, Benyou Wang
cs.AI
Resumen
Los Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés) tienen la capacidad de autocorregirse incluso cuando cometen errores en sus rutas de razonamiento. Sin embargo, nuestro estudio revela que cuando el proceso de razonamiento comienza con un inicio breve pero deficiente, resulta difícil para el modelo recuperarse. Nos referimos a este fenómeno como la "Trampa de Dominancia del Prefijo". Inspirados por hallazgos psicológicos que indican que la interacción entre pares puede promover la autocorrección sin afectar negativamente a los individuos ya precisos, proponemos **Aprendizaje entre Pares** (LeaP, por sus siglas en inglés) para abordar este fenómeno. Específicamente, cada cierto número de tokens, cada ruta de razonamiento resume su razonamiento intermedio y lo comparte con otras a través de un mecanismo de enrutamiento, permitiendo que las rutas incorporen perspectivas de sus pares durante la inferencia. Sin embargo, observamos que los modelos más pequeños a veces no siguen eficazmente las instrucciones de resumen y reflexión. Para abordar esto, los ajustamos en nuestra serie de modelos **LeaP-T**. Los experimentos en AIME 2024, AIME 2025, AIMO 2025 y GPQA Diamond muestran que LeaP proporciona mejoras sustanciales. Por ejemplo, QwQ-32B con LeaP logra casi 5 puntos absolutos más que la línea base en promedio, y supera a DeepSeek-R1-671B en tres benchmarks de matemáticas con una ganancia promedio de 3.3 puntos. Notablemente, nuestro modelo ajustado LeaP-T-7B iguala el rendimiento de DeepSeek-R1-Distill-Qwen-14B en AIME 2024. Un análisis en profundidad revela la robusta corrección de errores de LeaP gracias a las perspectivas oportunas de los pares, mostrando una fuerte tolerancia a errores y manejo de diversas dificultades en las tareas. LeaP marca un hito al permitir que los LRMs colaboren durante el razonamiento. Nuestro código, conjuntos de datos y modelos están disponibles en https://learning-from-peers.github.io/.
English
Large Reasoning Models (LRMs) have the ability to self-correct even when they
make mistakes in their reasoning paths. However, our study reveals that when
the reasoning process starts with a short but poor beginning, it becomes
difficult for the model to recover. We refer to this phenomenon as the "Prefix
Dominance Trap". Inspired by psychological findings that peer interaction can
promote self-correction without negatively impacting already accurate
individuals, we propose **Learning from Peers** (LeaP) to address this
phenomenon. Specifically, every tokens, each reasoning path summarizes its
intermediate reasoning and shares it with others through a routing mechanism,
enabling paths to incorporate peer insights during inference. However, we
observe that smaller models sometimes fail to follow summarization and
reflection instructions effectively. To address this, we fine-tune them into
our **LeaP-T** model series. Experiments on AIME 2024, AIME 2025, AIMO 2025,
and GPQA Diamond show that LeaP provides substantial improvements. For
instance, QwQ-32B with LeaP achieves nearly 5 absolute points higher than the
baseline on average, and surpasses DeepSeek-R1-671B on three math benchmarks
with an average gain of 3.3 points. Notably, our fine-tuned LeaP-T-7B matches
the performance of DeepSeek-R1-Distill-Qwen-14B on AIME 2024. In-depth analysis
reveals LeaP's robust error correction by timely peer insights, showing strong
error tolerance and handling varied task difficulty. LeaP marks a milestone by
enabling LRMs to collaborate during reasoning. Our code, datasets, and models
are available at https://learning-from-peers.github.io/ .Summary
AI-Generated Summary