Pilotaggio delle Ricompense con Euristiche Evolutive per l'Allineamento al Momento della Decodifica
Reward Steering with Evolutionary Heuristics for Decoding-time Alignment
June 21, 2024
Autori: Chia-Yu Hung, Navonil Majumder, Ambuj Mehrish, Soujanya Poria
cs.AI
Abstract
La vasta applicabilità e la crescente onnipresenza dei LLM (Large Language Models) hanno stimolato la necessità di allineare le risposte dei LLM alle preferenze degli utenti e degli stakeholder. Sono stati proposti numerosi approcci di ottimizzazione delle preferenze che affinano i parametri dei LLM per ottenere un buon allineamento. Tuttavia, è noto che tale regolazione dei parametri interferisce con le prestazioni del modello in molte attività. Inoltre, tenere il passo con le preferenze degli utenti in continua evoluzione risulta complicato in tali circostanze. L'allineamento al momento della decodifica con la guida di un modello di ricompensa risolve questi problemi al costo di un aumento del tempo di inferenza. Tuttavia, la maggior parte di questi metodi non riesce a trovare il giusto equilibrio tra esplorazione e sfruttamento della ricompensa, spesso a causa della formulazione confusa di questi due aspetti, per fornire risposte ben allineate. Per rimediare a ciò, separiamo questi due aspetti e li implementiamo in modo evolutivo: l'esplorazione viene imposta decodificando da istruzioni mutate, mentre lo sfruttamento è rappresentato come la sostituzione periodica delle generazioni poco premiate con quelle ben premiate. Le evidenze empiriche indicano che questa strategia supera molti approcci di ottimizzazione delle preferenze e di allineamento al momento della decodifica su due benchmark di allineamento ampiamente accettati, AlpacaEval 2 e MT-Bench. La nostra implementazione sarà disponibile al seguente indirizzo: https://darwin-alignment.github.io.
English
The widespread applicability and increasing omnipresence of LLMs have
instigated a need to align LLM responses to user and stakeholder preferences.
Many preference optimization approaches have been proposed that fine-tune LLM
parameters to achieve good alignment. However, such parameter tuning is known
to interfere with model performance on many tasks. Moreover, keeping up with
shifting user preferences is tricky in such a situation. Decoding-time
alignment with reward model guidance solves these issues at the cost of
increased inference time. However, most of such methods fail to strike the
right balance between exploration and exploitation of reward -- often due to
the conflated formulation of these two aspects - to give well-aligned
responses. To remedy this we decouple these two aspects and implement them in
an evolutionary fashion: exploration is enforced by decoding from mutated
instructions and exploitation is represented as the periodic replacement of
poorly-rewarded generations with well-rewarded ones. Empirical evidences
indicate that this strategy outperforms many preference optimization and
decode-time alignment approaches on two widely accepted alignment benchmarks
AlpacaEval 2 and MT-Bench. Our implementation will be available at:
https://darwin-alignment.github.io.