Destilação de Raciocínio Longo de Cadeia de Pensamento por meio de Decodificação Colaborativa Passo a Passo com Múltiplos Professores

Resumo

Destilar grandes modelos de raciocínio é essencial para tornar prático o raciocínio Long-CoT, uma vez que a inferência em escala total permanece computacionalmente proibitiva. As abordagens existentes baseadas em curadoria selecionam traços de raciocínio completos a posteriori, ignorando a colaboração entre professores heterogêneos e carecendo de exploração dinâmica, o que leva a amostragem redundante e à perda de raciocínio complementar. Apresentamos o CoRD, uma estrutura de decodificação colaborativa com múltiplos professores que realiza síntese de raciocínio passo a passo guiada por pontuação preditiva baseada em perplexidade e busca em feixe. Isso permite que LRMs heterogêneos construam conjuntamente trajetórias de raciocínio coerentes, preservando eficientemente hipóteses diversas e de alto potencial. Experimentos mostram que o CoRD produz dados de raciocínio de maior qualidade e alcança desempenho estudantil próximo ao do professor com menos sinais de supervisão estruturados, sem sobrecarga substancial de eficiência. O CoRD também se generaliza bem para ambientes fora do domínio e abertos. O conjunto de dados e o modelo estão disponíveis em https://github.com/DISL-Lab/CoRD{https://github.com/DISL-Lab/CoRD}.

English

Distilling large reasoning models is essential for making Long-CoT reasoning practical, as full-scale inference remains computationally prohibitive. Existing curation-based approaches select complete reasoning traces post-hoc, overlooking collaboration among heterogeneous teachers and lacking dynamic exploration, which leads to redundant sampling and missed complementary reasoning. We introduce CoRD, a collaborative multi-teacher decoding framework that performs step-wise reasoning synthesis guided by predictive perplexity-based scoring and beam search. This enables heterogeneous LRMs to jointly construct coherent reasoning trajectories while efficiently preserving diverse, high-potential hypotheses. Experiments show that CoRD produces higher-quality reasoning data and achieves near teacher-level student performance with fewer, structured supervision signals, without substantial efficiency overhead. CoRD further generalizes well to out-of-domain and open-ended settings. The dataset and model are available at https://github.com/DISL-Lab/CoRD{https://github.com/DISL-Lab/CoRD}.