Destillation von Long-CoT-Schlussfolgerungen durch kollaborative schrittweise Multi-Teacher-Dekodierung

Zusammenfassung

Das Destillieren großer Reasoning-Modelle ist entscheidend, um Long-CoT-Reasoning praktikabel zu machen, da eine vollumfängliche Inferenz weiterhin rechenintensiv bleibt. Bestehende kurationsbasierte Ansätze wählen nachträglich vollständige Reasoning-Spuren aus, übersehen dabei jedoch die Zusammenarbeit zwischen heterogenen Lehrern und entbehren dynamischer Exploration, was zu redundantem Sampling und verpasstem komplementärem Reasoning führt. Wir stellen CoRD vor, ein kollaboratives Multi-Teacher-Decoding-Framework, das eine schrittweise Reasoning-Synthese durchführt, geleitet von prädiktiver Perplexitätsbewertung und Beam Search. Dies ermöglicht es heterogenen LRMs, gemeinsam kohärente Reasoning-Trajektorien zu konstruieren, während effizient diverse, vielversprechende Hypothesen bewahrt werden. Experimente zeigen, dass CoRD qualitativ hochwertigere Reasoning-Daten erzeugt und mit weniger, strukturierten Supervisionssignalen fast das Niveau der Lehrer erreicht, ohne wesentlichen Effizienz-Overhead. Zudem generalisiert CoRD gut auf bereichsfremde und offene Einstellungen. Der Datensatz und das Modell sind verfügbar unter https://github.com/DISL-Lab/CoRD.

English

Distilling large reasoning models is essential for making Long-CoT reasoning practical, as full-scale inference remains computationally prohibitive. Existing curation-based approaches select complete reasoning traces post-hoc, overlooking collaboration among heterogeneous teachers and lacking dynamic exploration, which leads to redundant sampling and missed complementary reasoning. We introduce CoRD, a collaborative multi-teacher decoding framework that performs step-wise reasoning synthesis guided by predictive perplexity-based scoring and beam search. This enables heterogeneous LRMs to jointly construct coherent reasoning trajectories while efficiently preserving diverse, high-potential hypotheses. Experiments show that CoRD produces higher-quality reasoning data and achieves near teacher-level student performance with fewer, structured supervision signals, without substantial efficiency overhead. CoRD further generalizes well to out-of-domain and open-ended settings. The dataset and model are available at https://github.com/DISL-Lab/CoRD{https://github.com/DISL-Lab/CoRD}.