Дистилляция длинных цепочек рассуждений (Long-CoT) посредством совместного пошагового многоучительского декодирования

Аннотация

Дистилляция больших моделей рассуждения необходима для обеспечения практичности рассуждений с длинной цепочкой мыслей (Long-CoT), поскольку полномасштабный вывод остается вычислительно неприемлемым. Существующие подходы, основанные на курировании, выбирают полные трассы рассуждения постфактум, игнорируя сотрудничество между разнородными учителями и не обладая динамическим исследованием, что приводит к избыточной выборке и упущению взаимодополняющих рассуждений. Мы представляем CoRD — фреймворк для совместного декодирования с несколькими учителями, который выполняет пошаговый синтез рассуждений, направляемый предсказательной оценкой на основе перплексии и лучевым поиском. Это позволяет разнородным LRM совместно строить связные траектории рассуждений, эффективно сохраняя разнообразные и многообещающие гипотезы. Эксперименты показывают, что CoRD создает данные рассуждений более высокого качества и достигает производительности ученика, близкой к уровню учителя, при меньших и структурированных сигналах супервизии без существенных накладных расходов по эффективности. CoRD также хорошо обобщается на внедоменные и открытые сценарии. Набор данных и модель доступны по адресу https://github.com/DISL-Lab/CoRD.

English

Distilling large reasoning models is essential for making Long-CoT reasoning practical, as full-scale inference remains computationally prohibitive. Existing curation-based approaches select complete reasoning traces post-hoc, overlooking collaboration among heterogeneous teachers and lacking dynamic exploration, which leads to redundant sampling and missed complementary reasoning. We introduce CoRD, a collaborative multi-teacher decoding framework that performs step-wise reasoning synthesis guided by predictive perplexity-based scoring and beam search. This enables heterogeneous LRMs to jointly construct coherent reasoning trajectories while efficiently preserving diverse, high-potential hypotheses. Experiments show that CoRD produces higher-quality reasoning data and achieves near teacher-level student performance with fewer, structured supervision signals, without substantial efficiency overhead. CoRD further generalizes well to out-of-domain and open-ended settings. The dataset and model are available at https://github.com/DISL-Lab/CoRD{https://github.com/DISL-Lab/CoRD}.