PopAlign: Разнообразие контрастных шаблонов для более полного выравнивания
PopAlign: Diversifying Contrasting Patterns for a More Comprehensive Alignment
October 17, 2024
Авторы: Zekun Moore Wang, Shawn Wang, Kang Zhu, Jiaheng Liu, Ke Xu, Jie Fu, Wangchunshu Zhou, Wenhao Huang
cs.AI
Аннотация
Выравнивание больших языковых моделей (LLM) включает в себя обучение моделей на парах предпочтений-контрастных выводов для корректировки их ответов в соответствии с человеческими предпочтениями. Для получения таких контрастных пар традиционные методы, такие как RLHF и RLAIF, полагаются на ограниченные контрастные шаблоны, такие как изменение вариантов модели или температур декодирования. Эта однообразность приводит к двум проблемам: (1) выравнивание не является всеохватывающим; и, следовательно, (2) модели подвержены атакам на разблокировку. Для решения этих проблем мы исследуем, как построить более всеохватывающие и разнообразные контрастные шаблоны для улучшения данных о предпочтениях (RQ1) и проверяем влияние диверсификации контрастных шаблонов на выравнивание модели (RQ2). Для RQ1 мы предлагаем PopAlign, фреймворк, который интегрирует разнообразные контрастные шаблоны на уровнях подсказки, модели и конвейера, вводя шесть стратегий контрастирования, не требующих дополнительных процедур разметки обратной связи. Что касается RQ2, мы проводим тщательные эксперименты, демонстрирующие, что PopAlign значительно превосходит существующие методы, приводя к более всеохватывающему выравниванию.
English
Alignment of large language models (LLMs) involves training models on
preference-contrastive output pairs to adjust their responses according to
human preferences. To obtain such contrastive pairs, traditional methods like
RLHF and RLAIF rely on limited contrasting patterns, such as varying model
variants or decoding temperatures. This singularity leads to two issues: (1)
alignment is not comprehensive; and thereby (2) models are susceptible to
jailbreaking attacks. To address these issues, we investigate how to construct
more comprehensive and diversified contrasting patterns to enhance preference
data (RQ1) and verify the impact of the diversification of contrasting patterns
on model alignment (RQ2). For RQ1, we propose PopAlign, a framework that
integrates diversified contrasting patterns across the prompt, model, and
pipeline levels, introducing six contrasting strategies that do not require
additional feedback labeling procedures. Regarding RQ2, we conduct thorough
experiments demonstrating that PopAlign significantly outperforms existing
methods, leading to more comprehensive alignment.Summary
AI-Generated Summary