Beloningssturing met evolutionaire heuristieken voor uitlijning tijdens decodering
Reward Steering with Evolutionary Heuristics for Decoding-time Alignment
June 21, 2024
Auteurs: Chia-Yu Hung, Navonil Majumder, Ambuj Mehrish, Soujanya Poria
cs.AI
Samenvatting
De brede toepasbaarheid en toenemende alomtegenwoordigheid van LLM's hebben de behoefte aangewakkerd om LLM-reacties af te stemmen op de voorkeuren van gebruikers en belanghebbenden. Er zijn veel voorkeursoptimalisatiebenaderingen voorgesteld die de parameters van LLM's finetunen om een goede afstemming te bereiken. Het is echter bekend dat dergelijke parameterafstemming de modelprestaties op veel taken kan verstoren. Bovendien is het in zo'n situatie lastig om bij te blijven met verschuivende gebruikersvoorkeuren. Afstemming tijdens het decoderen met begeleiding van een beloningsmodel lost deze problemen op, maar ten koste van een langere inferentietijd. De meeste van dergelijke methoden slagen er echter niet in om de juiste balans te vinden tussen exploratie en exploitatie van beloningen – vaak door de verweven formulering van deze twee aspecten – om goed afgestemde reacties te geven. Om dit te verhelpen, ontkoppelen we deze twee aspecten en implementeren we ze op een evolutionaire manier: exploratie wordt afgedwongen door te decoderen vanuit gemuteerde instructies, en exploitatie wordt vertegenwoordigd als de periodieke vervanging van slecht beloonde generaties door goed beloonde. Empirisch bewijs geeft aan dat deze strategie veel voorkeursoptimalisatie- en decode-time-afstemmingsbenaderingen overtreft op twee algemeen aanvaarde afstemmingsbenchmarks, AlpacaEval 2 en MT-Bench. Onze implementatie zal beschikbaar zijn op: https://darwin-alignment.github.io.
English
The widespread applicability and increasing omnipresence of LLMs have
instigated a need to align LLM responses to user and stakeholder preferences.
Many preference optimization approaches have been proposed that fine-tune LLM
parameters to achieve good alignment. However, such parameter tuning is known
to interfere with model performance on many tasks. Moreover, keeping up with
shifting user preferences is tricky in such a situation. Decoding-time
alignment with reward model guidance solves these issues at the cost of
increased inference time. However, most of such methods fail to strike the
right balance between exploration and exploitation of reward -- often due to
the conflated formulation of these two aspects - to give well-aligned
responses. To remedy this we decouple these two aspects and implement them in
an evolutionary fashion: exploration is enforced by decoding from mutated
instructions and exploitation is represented as the periodic replacement of
poorly-rewarded generations with well-rewarded ones. Empirical evidences
indicate that this strategy outperforms many preference optimization and
decode-time alignment approaches on two widely accepted alignment benchmarks
AlpacaEval 2 and MT-Bench. Our implementation will be available at:
https://darwin-alignment.github.io.