ChatPaper.aiChatPaper

PopAlign: Разнообразие контрастных шаблонов для более полного выравнивания

PopAlign: Diversifying Contrasting Patterns for a More Comprehensive Alignment

October 17, 2024
Авторы: Zekun Moore Wang, Shawn Wang, Kang Zhu, Jiaheng Liu, Ke Xu, Jie Fu, Wangchunshu Zhou, Wenhao Huang
cs.AI

Аннотация

Выравнивание больших языковых моделей (LLM) включает в себя обучение моделей на парах предпочтений-контрастных выводов для корректировки их ответов в соответствии с человеческими предпочтениями. Для получения таких контрастных пар традиционные методы, такие как RLHF и RLAIF, полагаются на ограниченные контрастные шаблоны, такие как изменение вариантов модели или температур декодирования. Эта однообразность приводит к двум проблемам: (1) выравнивание не является всеохватывающим; и, следовательно, (2) модели подвержены атакам на разблокировку. Для решения этих проблем мы исследуем, как построить более всеохватывающие и разнообразные контрастные шаблоны для улучшения данных о предпочтениях (RQ1) и проверяем влияние диверсификации контрастных шаблонов на выравнивание модели (RQ2). Для RQ1 мы предлагаем PopAlign, фреймворк, который интегрирует разнообразные контрастные шаблоны на уровнях подсказки, модели и конвейера, вводя шесть стратегий контрастирования, не требующих дополнительных процедур разметки обратной связи. Что касается RQ2, мы проводим тщательные эксперименты, демонстрирующие, что PopAlign значительно превосходит существующие методы, приводя к более всеохватывающему выравниванию.
English
Alignment of large language models (LLMs) involves training models on preference-contrastive output pairs to adjust their responses according to human preferences. To obtain such contrastive pairs, traditional methods like RLHF and RLAIF rely on limited contrasting patterns, such as varying model variants or decoding temperatures. This singularity leads to two issues: (1) alignment is not comprehensive; and thereby (2) models are susceptible to jailbreaking attacks. To address these issues, we investigate how to construct more comprehensive and diversified contrasting patterns to enhance preference data (RQ1) and verify the impact of the diversification of contrasting patterns on model alignment (RQ2). For RQ1, we propose PopAlign, a framework that integrates diversified contrasting patterns across the prompt, model, and pipeline levels, introducing six contrasting strategies that do not require additional feedback labeling procedures. Regarding RQ2, we conduct thorough experiments demonstrating that PopAlign significantly outperforms existing methods, leading to more comprehensive alignment.

Summary

AI-Generated Summary

PDF192November 16, 2024