Distillation de Politiques par Co-Évolution

Résumé

Le RLVR et l'OPD sont devenus des paradigmes standards pour le post-entraînement. Nous proposons une analyse unifiée de ces deux paradigmes pour consolider plusieurs capacités d'expert dans un modèle unique, en identifiant la perte de capacité de différentes manières : le RLVR mixte souffre d'un coût de divergence inter-capacités, tandis que le pipeline consistant à d'abord entraîner les experts puis à effectuer l'OPD, bien qu'évitant la divergence, ne parvient pas à absorber pleinement les capacités du enseignant en raison d'écarts importants dans les schémas comportementaux entre enseignant et étudiant. Nous proposons la Distillation de Politique en Co-Évolution (CoPD), qui encourage l'entraînement parallèle des experts et introduit l'OPD pendant l'entraînement RLVR en cours de chaque expert plutôt qu'après un entraînement complet des experts, les experts servant d'enseignants mutuels (rendant l'OPD bidirectionnelle) pour co-évoluer. Cela permet des schémas comportementaux plus cohérents entre les experts tout en maintenant des connaissances complémentaires suffisantes tout au long du processus. Les expériences valident que CoPD réalise une intégration tout-en-un des capacités de raisonnement textuel, visuel et vidéo, surpassant significativement des bases de référence solides telles que le RLVR mixte et le MOPD, et dépassant même les experts spécialisés par domaine. Le modèle d'entraînement parallèle offert par CoPD pourrait inspirer un nouveau paradigme de mise à l'échelle de l'entraînement.

English

RLVR and OPD have become standard paradigms for post-training. We provide a unified analysis of these two paradigms in consolidating multiple expert capabilities into a single model, identifying capability loss in different ways: mixed RLVR suffers from inter-capability divergence cost, while the pipeline of first training experts and then performing OPD, though avoiding divergence, fails to fully absorb teacher capabilities due to large behavioral pattern gaps between teacher and student. We propose Co-Evolving Policy Distillation (CoPD), which encourages parallel training of experts and introduces OPD during each expert's ongoing RLVR training rather than after complete expert training, with experts serving as mutual teachers (making OPD bidirectional) to co-evolve. This enables more consistent behavioral patterns among experts while maintaining sufficient complementary knowledge throughout. Experiments validate that CoPD achieves all-in-one integration of text, image, and video reasoning capabilities, significantly outperforming strong baselines such as mixed RLVR and MOPD, and even surpassing domain-specific experts. The model parallel training pattern offered by CoPD may inspire a novel training scaling paradigm.