Direcionamento de Recompensa com Heurísticas Evolutivas para Alinhamento em Tempo de Decodificação
Reward Steering with Evolutionary Heuristics for Decoding-time Alignment
June 21, 2024
Autores: Chia-Yu Hung, Navonil Majumder, Ambuj Mehrish, Soujanya Poria
cs.AI
Resumo
A ampla aplicabilidade e crescente onipresença dos Modelos de Linguagem com Grandes Dimensões (LLMs) têm instigado a necessidade de alinhar as respostas dos LLMs às preferências dos usuários e partes interessadas. Muitas abordagens de otimização de preferências foram propostas para ajustar os parâmetros dos LLMs a fim de alcançar um bom alinhamento. No entanto, sabe-se que a afinação desses parâmetros pode interferir no desempenho do modelo em muitas tarefas. Além disso, acompanhar as mudanças nas preferências dos usuários é complicado em tal situação. O alinhamento no momento da decodificação com orientação do modelo de recompensa resolve essas questões, embora aumente o tempo de inferência. No entanto, a maioria desses métodos falha em encontrar o equilíbrio adequado entre exploração e exploração da recompensa - frequentemente devido à formulação confusa desses dois aspectos - para fornecer respostas bem alinhadas. Para remediar isso, separamos esses dois aspectos e os implementamos de forma evolutiva: a exploração é promovida decodificando instruções mutadas e a exploração é representada pela substituição periódica de gerações mal recompensadas por aquelas bem recompensadas. Evidências empíricas indicam que essa estratégia supera muitas abordagens de otimização de preferências e alinhamento no momento da decodificação em dois benchmarks amplamente aceitos de alinhamento, AlpacaEval 2 e MT-Bench. Nossa implementação estará disponível em: https://darwin-alignment.github.io.
English
The widespread applicability and increasing omnipresence of LLMs have
instigated a need to align LLM responses to user and stakeholder preferences.
Many preference optimization approaches have been proposed that fine-tune LLM
parameters to achieve good alignment. However, such parameter tuning is known
to interfere with model performance on many tasks. Moreover, keeping up with
shifting user preferences is tricky in such a situation. Decoding-time
alignment with reward model guidance solves these issues at the cost of
increased inference time. However, most of such methods fail to strike the
right balance between exploration and exploitation of reward -- often due to
the conflated formulation of these two aspects - to give well-aligned
responses. To remedy this we decouple these two aspects and implement them in
an evolutionary fashion: exploration is enforced by decoding from mutated
instructions and exploitation is represented as the periodic replacement of
poorly-rewarded generations with well-rewarded ones. Empirical evidences
indicate that this strategy outperforms many preference optimization and
decode-time alignment approaches on two widely accepted alignment benchmarks
AlpacaEval 2 and MT-Bench. Our implementation will be available at:
https://darwin-alignment.github.io.