Дискуссия способствует обобщению от слабого к сильному.

Аннотация

Общепринятые методы выравнивания уже способных моделей с желаемым поведением полагаются на способность людей предоставлять надзор. Однако будущие сверхчеловеческие модели превзойдут способности людей. Поэтому люди смогут лишь слабо контролировать сверхчеловеческие модели. Ожидаемое недостаточное качество оценки со стороны людей ослабит безопасность будущих систем искусственного интеллекта. Масштабируемый надзор и слабо-крепкая обобщенность - два взаимодополняющих подхода к решению этой проблемы. В данной статье мы пытаемся объединить преимущества этих двух подходов для дальнейшего улучшения выравнивания. Конкретно, мы исследуем способы улучшения человеческого надзора с помощью крепкой предварительно обученной модели, а затем контролируем крепкую модель с улучшенным слабым человеческим надзором. Для достижения итеративного эмпирического прогресса мы рассматриваем аналогию: можем ли мы использовать крепкую модель для улучшения надзора слабой модели, а затем использовать ее для контроля над крепкой моделью? Мы проводим эмпирическое тестирование, донастраивая небольшую слабую модель на истинных метках с дополнительной помощью большой крепкой модели, а затем донастраивая крепкую модель на метках, сгенерированных слабой моделью. Мы обнаруживаем, что дебаты могут помочь слабой модели извлечь достоверную информацию из ненадежной крепкой модели, что обеспечивает контекст при обучении слабой модели на образцах. Мы также показываем, что ансамбль слабых моделей помогает использовать длинные аргументы, сгенерированные дебатирующими крепкими моделями, и получить более надежную оценку надзора. Обширные эксперименты на бенчмарках слабой-крепкой обработки естественного языка от OpenAI показывают, что комбинированный подход приводит к лучшему выравниванию, что указывает на потенциал дебатов в помощи слабо-крепкой обобщенности.

English

Common methods for aligning already-capable models with desired behavior rely on the ability of humans to provide supervision. However, future superhuman models will surpass the capability of humans. Therefore, humans will only be able to weakly supervise superhuman models. This expected deficiency of human evaluation would weaken the safety of future AI systems. Scalable oversight and weak-to-strong generalization are two complementary approaches to tackle this issue. In this paper, we attempt to combine the strengths of these two approaches to further improve alignment. Specifically, we investigate ways of improving human supervision with a strong pretrained model and then supervise the strong model with enhanced weak human supervision. To make iterative empirical progress, we consider an analogy: can we use a strong model to improve weak model supervision and then use it to supervise the strong model? We empirically test it by finetuning a small weak model on ground truth labels with the additional help from a large strong model, and then finetuning the strong model on labels generated by the weak model. We find that debate can assist a weak model in extracting trustworthy information from an untrustworthy strong model, which provides leverage as context on samples when training a weak model. We also show that an ensemble of weak models helps exploit long arguments generated by strong model debaters and obtain a more robust supervision estimate. Extensive experiments on the OpenAI weak-to-strong NLP benchmarks show that the combination approach leads to better alignment, which indicates that debate has the potential to help weak-to-strong generalization.

Дискуссия способствует обобщению от слабого к сильному.

Debate Helps Weak-to-Strong Generalization

Аннотация

Support