Обучение на примерах в моделях рассуждений
Learning from Peers in Reasoning Models
May 12, 2025
Авторы: Tongxu Luo, Wenyu Du, Jiaxi Bi, Stephen Chung, Zhengyang Tang, Hao Yang, Min Zhang, Benyou Wang
cs.AI
Аннотация
Крупные модели рассуждений (Large Reasoning Models, LRMs) обладают способностью к самокоррекции даже при допущении ошибок в своих цепочках рассуждений. Однако наше исследование показывает, что если процесс рассуждения начинается с короткого, но неудачного старта, модели становится сложно восстановиться. Мы называем это явление "Ловушкой доминирования префикса". Вдохновленные психологическими исследованиями, которые демонстрируют, что взаимодействие с коллегами может способствовать самокоррекции, не оказывая негативного влияния на уже точные результаты, мы предлагаем подход **Обучение у коллег** (Learning from Peers, LeaP) для решения этой проблемы. В частности, на каждом этапе каждая цепочка рассуждений суммирует свои промежуточные результаты и делится ими с другими через механизм маршрутизации, что позволяет цепочкам учитывать мнения коллег в процессе вывода. Однако мы наблюдаем, что меньшие модели иногда не справляются с эффективным выполнением инструкций по суммированию и рефлексии. Для решения этой проблемы мы дообучаем их, создавая серию моделей **LeaP-T**. Эксперименты на наборах данных AIME 2024, AIME 2025, AIMO 2025 и GPQA Diamond показывают, что LeaP обеспечивает значительные улучшения. Например, модель QwQ-32B с LeaP демонстрирует в среднем на 5 абсолютных пунктов выше, чем базовый вариант, и превосходит DeepSeek-R1-671B на трех математических бенчмарках с средним приростом в 3,3 пункта. Примечательно, что наша дообученная модель LeaP-T-7B соответствует производительности DeepSeek-R1-Distill-Qwen-14B на AIME 2024. Глубокий анализ выявляет устойчивую коррекцию ошибок в LeaP благодаря своевременному обмену мнениями, демонстрируя высокую устойчивость к ошибкам и способность справляться с различной сложностью задач. LeaP знаменует собой важный этап, позволяя LRM взаимодействовать в процессе рассуждений. Наш код, наборы данных и модели доступны по адресу https://learning-from-peers.github.io/.
English
Large Reasoning Models (LRMs) have the ability to self-correct even when they
make mistakes in their reasoning paths. However, our study reveals that when
the reasoning process starts with a short but poor beginning, it becomes
difficult for the model to recover. We refer to this phenomenon as the "Prefix
Dominance Trap". Inspired by psychological findings that peer interaction can
promote self-correction without negatively impacting already accurate
individuals, we propose **Learning from Peers** (LeaP) to address this
phenomenon. Specifically, every tokens, each reasoning path summarizes its
intermediate reasoning and shares it with others through a routing mechanism,
enabling paths to incorporate peer insights during inference. However, we
observe that smaller models sometimes fail to follow summarization and
reflection instructions effectively. To address this, we fine-tune them into
our **LeaP-T** model series. Experiments on AIME 2024, AIME 2025, AIMO 2025,
and GPQA Diamond show that LeaP provides substantial improvements. For
instance, QwQ-32B with LeaP achieves nearly 5 absolute points higher than the
baseline on average, and surpasses DeepSeek-R1-671B on three math benchmarks
with an average gain of 3.3 points. Notably, our fine-tuned LeaP-T-7B matches
the performance of DeepSeek-R1-Distill-Qwen-14B on AIME 2024. In-depth analysis
reveals LeaP's robust error correction by timely peer insights, showing strong
error tolerance and handling varied task difficulty. LeaP marks a milestone by
enabling LRMs to collaborate during reasoning. Our code, datasets, and models
are available at https://learning-from-peers.github.io/ .Summary
AI-Generated Summary