Belohnungslenkung mit evolutionären Heuristiken zur Ausrichtung zur Entschlüsselungszeit
Reward Steering with Evolutionary Heuristics for Decoding-time Alignment
June 21, 2024
Autoren: Chia-Yu Hung, Navonil Majumder, Ambuj Mehrish, Soujanya Poria
cs.AI
Zusammenfassung
Die weitreichende Anwendbarkeit und zunehmende Omnipräsenz von LLMs haben die Notwendigkeit ausgelöst, LLM-Antworten an Benutzer- und Interessenvertreterpräferenzen auszurichten. Es wurden viele Ansätze zur Präferenzoptimierung vorgeschlagen, die LLM-Parameter feinabstimmen, um eine gute Ausrichtung zu erreichen. Allerdings ist bekannt, dass eine solche Parameterabstimmung die Modellleistung bei vielen Aufgaben beeinträchtigen kann. Zudem gestaltet sich das Schritt halten mit sich verändernden Benutzerpräferenzen in einer solchen Situation schwierig. Die Ausrichtung zur Dekodierungszeit mit Hilfe des Belohnungsmodells löst diese Probleme auf Kosten einer längeren Inferenzzeit. Allerdings gelingt es den meisten dieser Methoden nicht, das richtige Gleichgewicht zwischen Exploration und Ausbeutung der Belohnung zu finden - oft aufgrund der vermischt formulierten beiden Aspekte - um gut ausgerichtete Antworten zu liefern. Um dies zu beheben, entkoppeln wir diese beiden Aspekte und implementieren sie auf evolutionäre Weise: Die Exploration wird durch Dekodierung von mutierten Anweisungen erzwungen und die Ausbeutung wird als periodischer Austausch von schlecht belohnten Generationen durch gut belohnte dargestellt. Empirische Beweise zeigen, dass diese Strategie viele Präferenzoptimierungs- und Dekodierungszeit-Ausrichtungsansätze auf zwei weit verbreiteten Ausrichtungs-Benchmarks AlpacaEval 2 und MT-Bench übertrifft. Unsere Implementierung wird unter folgendem Link verfügbar sein: https://darwin-alignment.github.io.
English
The widespread applicability and increasing omnipresence of LLMs have
instigated a need to align LLM responses to user and stakeholder preferences.
Many preference optimization approaches have been proposed that fine-tune LLM
parameters to achieve good alignment. However, such parameter tuning is known
to interfere with model performance on many tasks. Moreover, keeping up with
shifting user preferences is tricky in such a situation. Decoding-time
alignment with reward model guidance solves these issues at the cost of
increased inference time. However, most of such methods fail to strike the
right balance between exploration and exploitation of reward -- often due to
the conflated formulation of these two aspects - to give well-aligned
responses. To remedy this we decouple these two aspects and implement them in
an evolutionary fashion: exploration is enforced by decoding from mutated
instructions and exploitation is represented as the periodic replacement of
poorly-rewarded generations with well-rewarded ones. Empirical evidences
indicate that this strategy outperforms many preference optimization and
decode-time alignment approaches on two widely accepted alignment benchmarks
AlpacaEval 2 and MT-Bench. Our implementation will be available at:
https://darwin-alignment.github.io.Summary
AI-Generated Summary