Совместно эволюционирующее дистилляционное обучение политик

Аннотация

RLVR и OPD стали стандартными парадигмами для пост-обучения. Мы представляем унифицированный анализ этих двух парадигм в консолидации множественных экспертных возможностей в единую модель, выявляя потерю способностей разными путями: смешанный RLVR страдает от стоимости межспособностной дивергенции, в то время как конвейер, состоящий из сначала обучения экспертов, а затем выполнения OPD, хотя и избегает дивергенции, не позволяет полностью усвоить возможности учителя из-за большого разрыва в поведенческих паттернах между учителем и учеником. Мы предлагаем Co-Evolving Policy Distillation (CoPD), который поощряет параллельное обучение экспертов и вводит OPD в процессе текущего RLVR-обучения каждого эксперта, а не после завершения обучения экспертов, причем эксперты выступают в роли взаимных учителей (делая OPD двунаправленным) для совместной эволюции. Это обеспечивает более согласованные поведенческие паттерны среди экспертов, сохраняя при этом достаточные комплементарные знания на протяжении всего процесса. Эксперименты подтверждают, что CoPD достигает всеобъемлющей интеграции способностей к текстовым, изображенческим и видео-рассуждениям, значительно превосходя сильные базовые линии, такие как смешанный RLVR и MOPD, и даже превосходя узкоспециализированных экспертов. Предлагаемая CoPD модель параллельного обучения может вдохновить новую парадигму масштабирования обучения.

English

RLVR and OPD have become standard paradigms for post-training. We provide a unified analysis of these two paradigms in consolidating multiple expert capabilities into a single model, identifying capability loss in different ways: mixed RLVR suffers from inter-capability divergence cost, while the pipeline of first training experts and then performing OPD, though avoiding divergence, fails to fully absorb teacher capabilities due to large behavioral pattern gaps between teacher and student. We propose Co-Evolving Policy Distillation (CoPD), which encourages parallel training of experts and introduces OPD during each expert's ongoing RLVR training rather than after complete expert training, with experts serving as mutual teachers (making OPD bidirectional) to co-evolve. This enables more consistent behavioral patterns among experts while maintaining sufficient complementary knowledge throughout. Experiments validate that CoPD achieves all-in-one integration of text, image, and video reasoning capabilities, significantly outperforming strong baselines such as mixed RLVR and MOPD, and even surpassing domain-specific experts. The model parallel training pattern offered by CoPD may inspire a novel training scaling paradigm.