Distiller le raisonnement Long-CoT par décodage multi-enseignant collaboratif pas-à-pas

Résumé

La distillation des grands modèles de raisonnement est essentielle pour rendre pratique le raisonnement Long-CoT, car l'inférence à grande échelle reste prohibitive sur le plan computationnel. Les approches existantes basées sur la curation sélectionnent des traces de raisonnement complètes a posteriori, négligeant la collaboration entre enseignants hétérogènes et manquant d'exploration dynamique, ce qui entraîne un échantillonnage redondant et des opportunités de raisonnement complémentaire manquées. Nous introduisons CoRD, un cadre de décodage collaboratif multi-enseignant qui effectue une synthèse de raisonnement pas à pas guidée par un scoring basé sur la perplexité prédictive et une recherche par faisceau. Cela permet à des LRM hétérogènes de construire conjointement des trajectoires de raisonnement cohérentes tout en préservant efficacement des hypothèses diverses et prometteuses. Les expériences montrent que CoRD produit des données de raisonnement de meilleure qualité et atteint des performances étudiantes proches de celles des enseignants avec moins de signaux de supervision structurés, sans surcoût d'efficacité substantiel. CoRD se généralise également bien à des contextes hors domaine et ouverts. L'ensemble de données et le modèle sont disponibles à l'adresse https://github.com/DISL-Lab/CoRD.

English

Distilling large reasoning models is essential for making Long-CoT reasoning practical, as full-scale inference remains computationally prohibitive. Existing curation-based approaches select complete reasoning traces post-hoc, overlooking collaboration among heterogeneous teachers and lacking dynamic exploration, which leads to redundant sampling and missed complementary reasoning. We introduce CoRD, a collaborative multi-teacher decoding framework that performs step-wise reasoning synthesis guided by predictive perplexity-based scoring and beam search. This enables heterogeneous LRMs to jointly construct coherent reasoning trajectories while efficiently preserving diverse, high-potential hypotheses. Experiments show that CoRD produces higher-quality reasoning data and achieves near teacher-level student performance with fewer, structured supervision signals, without substantial efficiency overhead. CoRD further generalizes well to out-of-domain and open-ended settings. The dataset and model are available at https://github.com/DISL-Lab/CoRD{https://github.com/DISL-Lab/CoRD}.