Направление вознаграждения с эволюционными эвристиками для выравнивания времени декодирования.
Reward Steering with Evolutionary Heuristics for Decoding-time Alignment
June 21, 2024
Авторы: Chia-Yu Hung, Navonil Majumder, Ambuj Mehrish, Soujanya Poria
cs.AI
Аннотация
Широкое применение и все более увеличивающееся присутствие LLMs вызвали необходимость выравнивания ответов LLM с предпочтениями пользователей и заинтересованных сторон. Было предложено множество подходов к оптимизации предпочтений, которые настраивают параметры LLM для достижения хорошего соответствия. Однако известно, что такая настройка параметров может негативно сказываться на производительности модели во многих задачах. Более того, сложно следить за изменяющимися предпочтениями пользователей в такой ситуации. Выравнивание на этапе декодирования с управлением моделью вознаграждения решает эти проблемы за счет увеличения времени вывода. Однако большинство подобных методов не удается найти правильный баланс между исследованием и использованием вознаграждения - часто из-за смешанной формулировки этих двух аспектов - для получения хорошо выровненных ответов. Для устранения этого мы разделяем эти два аспекта и реализуем их эволюционным образом: исследование обеспечивается декодированием из мутированных инструкций, а использование представлено периодической заменой поколений с низким вознаграждением на хорошо вознагражденные. Эмпирические данные показывают, что эта стратегия превосходит многие подходы к оптимизации предпочтений и выравниванию на этапе декодирования на двух широко принятых бенчмарках выравнивания AlpacaEval 2 и MT-Bench. Наша реализация будет доступна по адресу: https://darwin-alignment.github.io.
English
The widespread applicability and increasing omnipresence of LLMs have
instigated a need to align LLM responses to user and stakeholder preferences.
Many preference optimization approaches have been proposed that fine-tune LLM
parameters to achieve good alignment. However, such parameter tuning is known
to interfere with model performance on many tasks. Moreover, keeping up with
shifting user preferences is tricky in such a situation. Decoding-time
alignment with reward model guidance solves these issues at the cost of
increased inference time. However, most of such methods fail to strike the
right balance between exploration and exploitation of reward -- often due to
the conflated formulation of these two aspects - to give well-aligned
responses. To remedy this we decouple these two aspects and implement them in
an evolutionary fashion: exploration is enforced by decoding from mutated
instructions and exploitation is represented as the periodic replacement of
poorly-rewarded generations with well-rewarded ones. Empirical evidences
indicate that this strategy outperforms many preference optimization and
decode-time alignment approaches on two widely accepted alignment benchmarks
AlpacaEval 2 and MT-Bench. Our implementation will be available at:
https://darwin-alignment.github.io.Summary
AI-Generated Summary