Destilando Razonamiento de Cadena de Pensamiento Larga mediante Decodificación Colaborativa Paso a Paso con Múltiples Maestros

Resumen

Destilar modelos de razonamiento a gran escala es esencial para que el razonamiento de cadena de pensamiento larga (Long-CoT) resulte práctico, ya que la inferencia a escala completa sigue siendo computacionalmente prohibitiva. Los enfoques existentes basados en curación seleccionan trayectorias de razonamiento completas de forma retrospectiva, pasando por alto la colaboración entre maestros heterogéneos y careciendo de exploración dinámica, lo que conduce a un muestreo redundante y a oportunidades de razonamiento complementarias desaprovechadas. Presentamos CoRD, un marco de decodificación colaborativa con múltiples maestros que realiza una síntesis de razonamiento paso a paso guiada por una puntuación predictiva basada en perplejidad y búsqueda en haz. Esto permite que modelos de razonamiento a gran escala (LRMs) heterogéneos construyan conjuntamente trayectorias de razonamiento coherentes, preservando de manera eficiente hipótesis diversas y de alto potencial. Los experimentos muestran que CoRD produce datos de razonamiento de mayor calidad y logra un rendimiento estudiantil cercano al del maestro con menos señales de supervisión estructuradas, sin una sobrecarga de eficiencia sustancial. Además, CoRD se generaliza bien a entornos fuera del dominio y abiertos. El conjunto de datos y el modelo están disponibles en https://github.com/DISL-Lab/CoRD.

English

Distilling large reasoning models is essential for making Long-CoT reasoning practical, as full-scale inference remains computationally prohibitive. Existing curation-based approaches select complete reasoning traces post-hoc, overlooking collaboration among heterogeneous teachers and lacking dynamic exploration, which leads to redundant sampling and missed complementary reasoning. We introduce CoRD, a collaborative multi-teacher decoding framework that performs step-wise reasoning synthesis guided by predictive perplexity-based scoring and beam search. This enables heterogeneous LRMs to jointly construct coherent reasoning trajectories while efficiently preserving diverse, high-potential hypotheses. Experiments show that CoRD produces higher-quality reasoning data and achieves near teacher-level student performance with fewer, structured supervision signals, without substantial efficiency overhead. CoRD further generalizes well to out-of-domain and open-ended settings. The dataset and model are available at https://github.com/DISL-Lab/CoRD{https://github.com/DISL-Lab/CoRD}.