Pilotaggio delle Ricompense con Euristiche Evolutive per l'Allineamento al Momento della Decodifica

Abstract

La vasta applicabilità e la crescente onnipresenza dei LLM (Large Language Models) hanno stimolato la necessità di allineare le risposte dei LLM alle preferenze degli utenti e degli stakeholder. Sono stati proposti numerosi approcci di ottimizzazione delle preferenze che affinano i parametri dei LLM per ottenere un buon allineamento. Tuttavia, è noto che tale regolazione dei parametri interferisce con le prestazioni del modello in molte attività. Inoltre, tenere il passo con le preferenze degli utenti in continua evoluzione risulta complicato in tali circostanze. L'allineamento al momento della decodifica con la guida di un modello di ricompensa risolve questi problemi al costo di un aumento del tempo di inferenza. Tuttavia, la maggior parte di questi metodi non riesce a trovare il giusto equilibrio tra esplorazione e sfruttamento della ricompensa, spesso a causa della formulazione confusa di questi due aspetti, per fornire risposte ben allineate. Per rimediare a ciò, separiamo questi due aspetti e li implementiamo in modo evolutivo: l'esplorazione viene imposta decodificando da istruzioni mutate, mentre lo sfruttamento è rappresentato come la sostituzione periodica delle generazioni poco premiate con quelle ben premiate. Le evidenze empiriche indicano che questa strategia supera molti approcci di ottimizzazione delle preferenze e di allineamento al momento della decodifica su due benchmark di allineamento ampiamente accettati, AlpacaEval 2 e MT-Bench. La nostra implementazione sarà disponibile al seguente indirizzo: https://darwin-alignment.github.io.

English

The widespread applicability and increasing omnipresence of LLMs have instigated a need to align LLM responses to user and stakeholder preferences. Many preference optimization approaches have been proposed that fine-tune LLM parameters to achieve good alignment. However, such parameter tuning is known to interfere with model performance on many tasks. Moreover, keeping up with shifting user preferences is tricky in such a situation. Decoding-time alignment with reward model guidance solves these issues at the cost of increased inference time. However, most of such methods fail to strike the right balance between exploration and exploitation of reward -- often due to the conflated formulation of these two aspects - to give well-aligned responses. To remedy this we decouple these two aspects and implement them in an evolutionary fashion: exploration is enforced by decoding from mutated instructions and exploitation is represented as the periodic replacement of poorly-rewarded generations with well-rewarded ones. Empirical evidences indicate that this strategy outperforms many preference optimization and decode-time alignment approaches on two widely accepted alignment benchmarks AlpacaEval 2 and MT-Bench. Our implementation will be available at: https://darwin-alignment.github.io.

Pilotaggio delle Ricompense con Euristiche Evolutive per l'Allineamento al Momento della Decodifica

Reward Steering with Evolutionary Heuristics for Decoding-time Alignment

Abstract

Support