Ko-evolutionäre Policy-Destillation

Zusammenfassung

RLVR und OPD sind zu Standardparadigmen für das Post-Training geworden. Wir bieten eine einheitliche Analyse dieser beiden Paradigmen bei der Konsolidierung multipler Expertenfähigkeiten in einem einzigen Modell und identifizieren Fähigkeitsverluste auf unterschiedliche Weise: Gemischtes RLVR leidet unter Kosten durch Inter-Fähigkeits-Divergenz, während die Pipeline, bei der zuerst Experten trainiert und anschließend OPD durchgeführt wird, zwar Divergenz vermeidet, aber aufgrund großer Verhaltensmusterunterschiede zwischen Lehrer und Schüler die Fähigkeiten des Lehrers nicht vollständig absorbieren kann. Wir schlagen Co-Evolving Policy Distillation (CoPD) vor, das paralleles Training von Experten fördert und OPD während des laufenden RLVR-Trainings jedes Experten einführt, anstatt nach abgeschlossenem Experten-Training. Dabei dienen die Experten als gegenseitige Lehrer (was OPD bidirektional macht), um sich ko-evolutiv weiterzuentwickeln. Dies ermöglicht konsistentere Verhaltensmuster zwischen den Experten bei gleichzeitiger Beibehaltung ausreichend komplementären Wissens throughout. Experimente bestätigen, dass CoPD eine All-in-One-Integration von Text-, Bild- und Video-Reasoning-Fähigkeiten erreicht und starke Baselines wie gemischtes RLVR und MOPD signifikant übertrifft, ja sogar domainspezifische Experten überflügelt. Das von CoPD bereitgestellte Modell-Parallel-Training-Muster könnte ein neuartiges Trainings-Scaling-Paradigma inspirieren.

English

RLVR and OPD have become standard paradigms for post-training. We provide a unified analysis of these two paradigms in consolidating multiple expert capabilities into a single model, identifying capability loss in different ways: mixed RLVR suffers from inter-capability divergence cost, while the pipeline of first training experts and then performing OPD, though avoiding divergence, fails to fully absorb teacher capabilities due to large behavioral pattern gaps between teacher and student. We propose Co-Evolving Policy Distillation (CoPD), which encourages parallel training of experts and introduces OPD during each expert's ongoing RLVR training rather than after complete expert training, with experts serving as mutual teachers (making OPD bidirectional) to co-evolve. This enables more consistent behavioral patterns among experts while maintaining sufficient complementary knowledge throughout. Experiments validate that CoPD achieves all-in-one integration of text, image, and video reasoning capabilities, significantly outperforming strong baselines such as mixed RLVR and MOPD, and even surpassing domain-specific experts. The model parallel training pattern offered by CoPD may inspire a novel training scaling paradigm.