Направление вознаграждения с эволюционными эвристиками для выравнивания времени декодирования.

Аннотация

Широкое применение и все более увеличивающееся присутствие LLMs вызвали необходимость выравнивания ответов LLM с предпочтениями пользователей и заинтересованных сторон. Было предложено множество подходов к оптимизации предпочтений, которые настраивают параметры LLM для достижения хорошего соответствия. Однако известно, что такая настройка параметров может негативно сказываться на производительности модели во многих задачах. Более того, сложно следить за изменяющимися предпочтениями пользователей в такой ситуации. Выравнивание на этапе декодирования с управлением моделью вознаграждения решает эти проблемы за счет увеличения времени вывода. Однако большинство подобных методов не удается найти правильный баланс между исследованием и использованием вознаграждения - часто из-за смешанной формулировки этих двух аспектов - для получения хорошо выровненных ответов. Для устранения этого мы разделяем эти два аспекта и реализуем их эволюционным образом: исследование обеспечивается декодированием из мутированных инструкций, а использование представлено периодической заменой поколений с низким вознаграждением на хорошо вознагражденные. Эмпирические данные показывают, что эта стратегия превосходит многие подходы к оптимизации предпочтений и выравниванию на этапе декодирования на двух широко принятых бенчмарках выравнивания AlpacaEval 2 и MT-Bench. Наша реализация будет доступна по адресу: https://darwin-alignment.github.io.

English

The widespread applicability and increasing omnipresence of LLMs have instigated a need to align LLM responses to user and stakeholder preferences. Many preference optimization approaches have been proposed that fine-tune LLM parameters to achieve good alignment. However, such parameter tuning is known to interfere with model performance on many tasks. Moreover, keeping up with shifting user preferences is tricky in such a situation. Decoding-time alignment with reward model guidance solves these issues at the cost of increased inference time. However, most of such methods fail to strike the right balance between exploration and exploitation of reward -- often due to the conflated formulation of these two aspects - to give well-aligned responses. To remedy this we decouple these two aspects and implement them in an evolutionary fashion: exploration is enforced by decoding from mutated instructions and exploitation is represented as the periodic replacement of poorly-rewarded generations with well-rewarded ones. Empirical evidences indicate that this strategy outperforms many preference optimization and decode-time alignment approaches on two widely accepted alignment benchmarks AlpacaEval 2 and MT-Bench. Our implementation will be available at: https://darwin-alignment.github.io.

Направление вознаграждения с эволюционными эвристиками для выравнивания времени декодирования.

Reward Steering with Evolutionary Heuristics for Decoding-time Alignment

Аннотация

Support