Destilação de Políticas por Coevolução

Resumo

O RLVR e o OPD tornaram-se paradigmas padrão para o pós-treinamento. Apresentamos uma análise unificada destes dois paradigmas na consolidação de múltiplas capacidades de especialistas num único modelo, identificando a perda de capacidade de formas diferentes: o RLVR misto sofre com o custo da divergência inter-capacidades, enquanto o *pipeline* de primeiro treinar especialistas e depois realizar OPD, embora evite a divergência, falha em absorver totalmente as capacidades do professor devido a grandes lacunas nos padrões comportamentais entre professor e aluno. Propomos a Destilação de Políticas Co-Evolutivas (CoPD), que incentiva o treino paralelo de especialistas e introduz o OPD durante o treino contínuo de RLVR de cada especialista, em vez de após o treino completo do especialista, com os especialistas a servirem como professores mútuos (tornando o OPD bidirecional) para co-evoluir. Isto permite padrões comportamentais mais consistentes entre os especialistas, mantendo ao mesmo tempo conhecimento complementar suficiente ao longo do processo. Experiências validam que o CoPD alcança uma integração tudo-em-um de capacidades de raciocínio de texto, imagem e vídeo, superando significativamente *baselines* fortes como o RLVR misto e o MOPD, e até ultrapassando especialistas específicos de domínio. O padrão de treino paralelo de modelos oferecido pelo CoPD pode inspirar um novo paradigma de escalonamento de treino.

English

RLVR and OPD have become standard paradigms for post-training. We provide a unified analysis of these two paradigms in consolidating multiple expert capabilities into a single model, identifying capability loss in different ways: mixed RLVR suffers from inter-capability divergence cost, while the pipeline of first training experts and then performing OPD, though avoiding divergence, fails to fully absorb teacher capabilities due to large behavioral pattern gaps between teacher and student. We propose Co-Evolving Policy Distillation (CoPD), which encourages parallel training of experts and introduces OPD during each expert's ongoing RLVR training rather than after complete expert training, with experts serving as mutual teachers (making OPD bidirectional) to co-evolve. This enables more consistent behavioral patterns among experts while maintaining sufficient complementary knowledge throughout. Experiments validate that CoPD achieves all-in-one integration of text, image, and video reasoning capabilities, significantly outperforming strong baselines such as mixed RLVR and MOPD, and even surpassing domain-specific experts. The model parallel training pattern offered by CoPD may inspire a novel training scaling paradigm.