Distillazione delle Politiche a Co-Evoluzione

Abstract

RLVR e OPD sono diventati paradigmi standard per il post-addestramento. Forniamo un'analisi unificata di questi due paradigmi nel consolidare molteplici capacità di esperti in un unico modello, identificando la perdita di capacità in modi diversi: la RLVR mista soffre di un costo di divergenza inter-capacità, mentre la pipeline che addestra prima gli esperti e poi esegue l'OPD, sebbene eviti la divergenza, non riesce ad assorbire pienamente le capacità del teacher a causa di ampi gap nei pattern comportamentali tra teacher e studente. Proponiamo la Co-Evolving Policy Distillation (CoPD), che incoraggia l'addestramento parallelo degli esperti e introduce l'OPD durante l'addestramento RLVR in corso di ogni esperto, anziché dopo il completamento dell'addestramento degli esperti, con gli esperti che fungono da teacher reciproci (rendendo l'OPD bidirezionale) per co-evolvere. Ciò consente pattern comportamentali più consistenti tra gli esperti mantenendo al contempo una conoscenza complementare sufficiente durante tutto il processo. Gli esperimenti convalidano che CoPD raggiunge un'integrazione tutto-in-uno delle capacità di ragionamento testuale, visivo e video, superando significativamente baseline robuste come la RLVR mista e la MOPD, e superando persino esperti dominio-specifici. Il pattern di addestramento parallelo del modello offerto da CoPD potrebbe ispirare un nuovo paradigma di scalabilità dell'addestramento.

English

RLVR and OPD have become standard paradigms for post-training. We provide a unified analysis of these two paradigms in consolidating multiple expert capabilities into a single model, identifying capability loss in different ways: mixed RLVR suffers from inter-capability divergence cost, while the pipeline of first training experts and then performing OPD, though avoiding divergence, fails to fully absorb teacher capabilities due to large behavioral pattern gaps between teacher and student. We propose Co-Evolving Policy Distillation (CoPD), which encourages parallel training of experts and introduces OPD during each expert's ongoing RLVR training rather than after complete expert training, with experts serving as mutual teachers (making OPD bidirectional) to co-evolve. This enables more consistent behavioral patterns among experts while maintaining sufficient complementary knowledge throughout. Experiments validate that CoPD achieves all-in-one integration of text, image, and video reasoning capabilities, significantly outperforming strong baselines such as mixed RLVR and MOPD, and even surpassing domain-specific experts. The model parallel training pattern offered by CoPD may inspire a novel training scaling paradigm.