ChatPaper.aiChatPaper

Не выбрасывайте свою предобученную модель

Don't Throw Away Your Pretrained Model

October 10, 2025
Авторы: Shangbin Feng, Wenhao Yu, Yike Wang, Hongming Zhang, Yulia Tsvetkov, Dong Yu
cs.AI

Аннотация

Обучение согласованию имеет свои компромиссы: оно помогает языковым моделям (LM) улучшить способность к рассуждению и следованию инструкциям, но может привести к потере таких навыков, как креативность и калибровка, в которых преуспевают несогласованные базовые модели. Мы стремимся объединить лучшее из обоих миров через совместную работу моделей, где различные модели в процессе обучения взаимодействуют и дополняют друг друга. Поскольку ответы LM включают чередующиеся навыки, которые лучше подходят для разных моделей, мы предлагаем подход Switch Generation, где предобученные и согласованные версии моделей поочередно "говорят" в последовательности ответов. Конкретно, мы обучаем модель-переключатель (switcher LM), изучая результаты выбора различных моделей для генерации следующего сегмента в разнообразных запросах и контекстах. На этапе вывода модель-переключатель направляет различные контрольные точки моделей для динамической генерации следующего сегмента там, где их сильные стороны наиболее востребованы. Масштабные эксперименты с 8 базовыми подходами совместной работы моделей и 18 наборами данных показывают, что 1) совместная работа моделей стабильно превосходит отдельные модели в 16 из 18 задач, и 2) Switch Generation дополнительно превосходит базовые подходы в среднем на 12,9%. Дополнительный анализ показывает, что Switch Generation обнаруживает композиционные навыки для решения задач, с которыми отдельные модели не справляются, и обобщает на неизвестные модели и задачи, повторно используя и перепрофилируя побочные продукты дорогостоящих процессов обучения моделей, которые в противном случае были бы отброшены.
English
Alignment training has tradeoffs: it helps language models (LMs) gain in reasoning and instruction following but might lose out on skills such as creativity and calibration, where unaligned base models are better at. We aim to make the best of both worlds through model collaboration, where different models in the training pipeline collaborate and complement each other. Since LM responses feature interleaving skills that favor different models, we propose Switch Generation, where pretrained and aligned model versions take turns to ``speak'' in a response sequence. Specifically, we train a switcher LM by learning from outcomes of choosing different models to generate the next segment across diverse queries and contexts. At inference time, the switcher LM guides different model checkpoints to dynamically generate the next segment where their strengths are most needed. Extensive experiments with 8 model collaboration baselines and 18 datasets show that 1) model collaboration consistently outperforms individual models on 16 out of 18 tasks, and 2) Switch Generation further outperforms baselines by 12.9% on average. Further analysis reveals that Switch Generation discovers compositional skills to solve problems where individual models struggle and generalizes to unseen models and tasks, reusing and repurposing by-products in expensive model training pipelines that are otherwise discarded.
PDF22October 16, 2025