Destilleren van Lange CoT Redenering via Collaboratieve Stapsgewijze Multi-Teacher Decodering

Samenvatting

Het distilleren van grote redeneermodellen is essentieel om Long-CoT-redeneren praktisch toepasbaar te maken, aangezien volledige inferentie rekentechnisch onbetaalbaar blijft. Bestaande curatie-gebaseerde benaderingen selecteren post-hoc volledige redeneersporen, waarbij samenwerking tussen heterogene leraren over het hoofd wordt gezien en dynamische exploratie ontbreekt, wat leidt tot redundante bemonstering en gemist complementair redeneren. We introduceren CoRD, een collaboratief multi-teacher decodingframework dat stapsgewijze redeneersynthese uitvoert, gestuurd door predictieve perplexity-gebaseerde scoring en beam search. Hierdoor kunnen heterogene LRM's gezamenlijk coherente redeneertrajecten opbouwen, terwijl diverse, veelbelovende hypothesen efficiënt behouden blijven. Experimenten tonen aan dat CoRD redeneergegevens van hogere kwaliteit produceert en met minder, gestructureerde supervisiesignalen prestaties op bijna leraarsniveau bij studenten bereikt, zonder aanzienlijke efficiëntieoverhead. CoRD generaliseert verder goed naar buitendomein- en open-einde-instellingen. De dataset en het model zijn beschikbaar op https://github.com/DISL-Lab/CoRD.

English

Distilling large reasoning models is essential for making Long-CoT reasoning practical, as full-scale inference remains computationally prohibitive. Existing curation-based approaches select complete reasoning traces post-hoc, overlooking collaboration among heterogeneous teachers and lacking dynamic exploration, which leads to redundant sampling and missed complementary reasoning. We introduce CoRD, a collaborative multi-teacher decoding framework that performs step-wise reasoning synthesis guided by predictive perplexity-based scoring and beam search. This enables heterogeneous LRMs to jointly construct coherent reasoning trajectories while efficiently preserving diverse, high-potential hypotheses. Experiments show that CoRD produces higher-quality reasoning data and achieves near teacher-level student performance with fewer, structured supervision signals, without substantial efficiency overhead. CoRD further generalizes well to out-of-domain and open-ended settings. The dataset and model are available at https://github.com/DISL-Lab/CoRD{https://github.com/DISL-Lab/CoRD}.