Destilación de Políticas con Co-Evolución

Resumen

RLVR y OPD se han convertido en paradigmas estándar para el ajuste posterior al entrenamiento. Presentamos un análisis unificado de estos dos paradigmas para consolidar múltiples capacidades expertas en un único modelo, identificando la pérdida de capacidades de diferentes maneras: RLVR mixto sufre un coste por divergencia inter-capacidades, mientras que el pipeline de primero entrenar expertos y luego realizar OPD, aunque evita la divergencia, no logra absorber completamente las capacidades del modelo profesor debido a las grandes diferencias en los patrones de comportamiento entre el profesor y el estudiante. Proponemos la Destilación de Políticas de Co-Evolución (CoPD), que fomenta el entrenamiento paralelo de expertos e introduce OPD durante el entrenamiento RLVR en curso de cada experto, en lugar de después de completar su entrenamiento, utilizando los expertos como profesores mutuos (haciendo el OPD bidireccional) para co-evolucionar. Esto permite patrones de comportamiento más consistentes entre expertos mientras se mantiene un conocimiento complementario suficiente durante todo el proceso. Los experimentos validan que CoPD logra una integración integral de capacidades de razonamiento textual, visual y de vídeo, superando significativamente a líneas base sólidas como RLVR mixto y MOPD, e incluso sobrepasando a expertos específicos de dominio. El patrón de entrenamiento en paralelo que ofrece CoPD podría inspirar un nuevo paradigma de escalado del entrenamiento.

English

RLVR and OPD have become standard paradigms for post-training. We provide a unified analysis of these two paradigms in consolidating multiple expert capabilities into a single model, identifying capability loss in different ways: mixed RLVR suffers from inter-capability divergence cost, while the pipeline of first training experts and then performing OPD, though avoiding divergence, fails to fully absorb teacher capabilities due to large behavioral pattern gaps between teacher and student. We propose Co-Evolving Policy Distillation (CoPD), which encourages parallel training of experts and introduces OPD during each expert's ongoing RLVR training rather than after complete expert training, with experts serving as mutual teachers (making OPD bidirectional) to co-evolve. This enables more consistent behavioral patterns among experts while maintaining sufficient complementary knowledge throughout. Experiments validate that CoPD achieves all-in-one integration of text, image, and video reasoning capabilities, significantly outperforming strong baselines such as mixed RLVR and MOPD, and even surpassing domain-specific experts. The model parallel training pattern offered by CoPD may inspire a novel training scaling paradigm.