Aprendendo com Pares em Modelos de Raciocínio
Learning from Peers in Reasoning Models
May 12, 2025
Autores: Tongxu Luo, Wenyu Du, Jiaxi Bi, Stephen Chung, Zhengyang Tang, Hao Yang, Min Zhang, Benyou Wang
cs.AI
Resumo
Modelos de Raciocínio de Grande Escala (LRMs) possuem a capacidade de se autocorrigir mesmo quando cometem erros em seus caminhos de raciocínio. No entanto, nosso estudo revela que, quando o processo de raciocínio começa com um início curto, mas de baixa qualidade, torna-se difícil para o modelo se recuperar. Referimo-nos a esse fenômeno como a "Armadilha da Dominância do Prefixo". Inspirados por descobertas psicológicas de que a interação entre pares pode promover a autocorreção sem impactar negativamente indivíduos já precisos, propomos **Aprendizado com Pares** (LeaP) para abordar esse fenômeno. Especificamente, a cada conjunto de tokens, cada caminho de raciocínio resume seu raciocínio intermediário e o compartilha com outros por meio de um mecanismo de roteamento, permitindo que os caminhos incorporem insights dos pares durante a inferência. No entanto, observamos que modelos menores às vezes falham em seguir efetivamente as instruções de resumo e reflexão. Para resolver isso, ajustamos finamente esses modelos em nossa série **LeaP-T**. Experimentos realizados em AIME 2024, AIME 2025, AIMO 2025 e GPQA Diamond mostram que o LeaP oferece melhorias substanciais. Por exemplo, o QwQ-32B com LeaP alcança quase 5 pontos absolutos a mais do que a linha de base em média e supera o DeepSeek-R1-671B em três benchmarks de matemática com um ganho médio de 3,3 pontos. Notavelmente, nosso modelo ajustado LeaP-T-7B iguala o desempenho do DeepSeek-R1-Distill-Qwen-14B no AIME 2024. Análises detalhadas revelam a robusta correção de erros do LeaP por meio de insights oportunos dos pares, demonstrando forte tolerância a erros e capacidade de lidar com diferentes níveis de dificuldade das tarefas. O LeaP marca um marco ao permitir que LRMs colaborem durante o raciocínio. Nosso código, conjuntos de dados e modelos estão disponíveis em https://learning-from-peers.github.io/.
English
Large Reasoning Models (LRMs) have the ability to self-correct even when they
make mistakes in their reasoning paths. However, our study reveals that when
the reasoning process starts with a short but poor beginning, it becomes
difficult for the model to recover. We refer to this phenomenon as the "Prefix
Dominance Trap". Inspired by psychological findings that peer interaction can
promote self-correction without negatively impacting already accurate
individuals, we propose **Learning from Peers** (LeaP) to address this
phenomenon. Specifically, every tokens, each reasoning path summarizes its
intermediate reasoning and shares it with others through a routing mechanism,
enabling paths to incorporate peer insights during inference. However, we
observe that smaller models sometimes fail to follow summarization and
reflection instructions effectively. To address this, we fine-tune them into
our **LeaP-T** model series. Experiments on AIME 2024, AIME 2025, AIMO 2025,
and GPQA Diamond show that LeaP provides substantial improvements. For
instance, QwQ-32B with LeaP achieves nearly 5 absolute points higher than the
baseline on average, and surpasses DeepSeek-R1-671B on three math benchmarks
with an average gain of 3.3 points. Notably, our fine-tuned LeaP-T-7B matches
the performance of DeepSeek-R1-Distill-Qwen-14B on AIME 2024. In-depth analysis
reveals LeaP's robust error correction by timely peer insights, showing strong
error tolerance and handling varied task difficulty. LeaP marks a milestone by
enabling LRMs to collaborate during reasoning. Our code, datasets, and models
are available at https://learning-from-peers.github.io/ .