Co-Evoluerende Policy Distillatie

Samenvatting

RLVR en OPD zijn standaardparadigma's geworden voor post-training. Wij bieden een geünificeerde analyse van deze twee paradigma's bij het consolideren van meerdere expertcapaciteiten in één model, waarbij we capaciteitsverlies op verschillende manieren identificeren: gemengde RLVR lijdt onder inter-capaciteitsdivergentiekosten, terwijl de pijplijn van eerst experts trainen en vervolgens OPD uitvoeren, hoewel divergentie vermeden wordt, er niet in slaagt de capaciteiten van de teacher volledig te absorberen vanwege grote gedragspatroonverschillen tussen teacher en student. Wij stellen Co-Evolving Policy Distillation (CoPD) voor, waarbij parallelle training van experts wordt aangemoedigd en OPD wordt geïntroduceerd tijdens de doorlopende RLVR-training van elke expert in plaats van na voltooide experttraining, waarbij experts als onderlinge teachers fungeren (waardoor OPD bidirectioneel wordt) om zich gezamenlijk te ontwikkelen. Dit maakt consistentere gedragspatronen tussen experts mogelijk terwijl voldoende complementaire kennis behouden blijft. Experimenten valideren dat CoPD een alles-in-één integratie van tekst-, beeld- en videoredeneercapaciteiten bereikt, aanzienlijk sterker presteert dan sterke baseline-methoden zoals gemengde RLVR en MOPD, en zelfs domeinspecifieke experts overtreft. Het parallelle modeltrainingspatroon dat CoPD biedt, kan een nieuw trainingsschaalparadigma inspireren.

English

RLVR and OPD have become standard paradigms for post-training. We provide a unified analysis of these two paradigms in consolidating multiple expert capabilities into a single model, identifying capability loss in different ways: mixed RLVR suffers from inter-capability divergence cost, while the pipeline of first training experts and then performing OPD, though avoiding divergence, fails to fully absorb teacher capabilities due to large behavioral pattern gaps between teacher and student. We propose Co-Evolving Policy Distillation (CoPD), which encourages parallel training of experts and introduces OPD during each expert's ongoing RLVR training rather than after complete expert training, with experts serving as mutual teachers (making OPD bidirectional) to co-evolve. This enables more consistent behavioral patterns among experts while maintaining sufficient complementary knowledge throughout. Experiments validate that CoPD achieves all-in-one integration of text, image, and video reasoning capabilities, significantly outperforming strong baselines such as mixed RLVR and MOPD, and even surpassing domain-specific experts. The model parallel training pattern offered by CoPD may inspire a novel training scaling paradigm.