Direccionamiento de Recompensas con Heurísticas Evolutivas para Alineación en Tiempo de Decodificación
Reward Steering with Evolutionary Heuristics for Decoding-time Alignment
June 21, 2024
Autores: Chia-Yu Hung, Navonil Majumder, Ambuj Mehrish, Soujanya Poria
cs.AI
Resumen
La amplia aplicabilidad y la creciente omnipresencia de los LLM (Modelos de Lenguaje de Gran Escala) han impulsado la necesidad de alinear las respuestas de estos modelos con las preferencias de los usuarios y las partes interesadas. Se han propuesto muchos enfoques de optimización de preferencias que ajustan los parámetros de los LLM para lograr una buena alineación. Sin embargo, se sabe que dicho ajuste de parámetros interfiere con el rendimiento del modelo en muchas tareas. Además, mantenerse al día con las preferencias cambiantes de los usuarios es complicado en tales situaciones. La alineación en tiempo de decodificación con guía de un modelo de recompensa resuelve estos problemas a costa de un mayor tiempo de inferencia. No obstante, la mayoría de estos métodos no logran encontrar el equilibrio adecuado entre la exploración y la explotación de la recompensa, a menudo debido a la formulación confusa de estos dos aspectos, para proporcionar respuestas bien alineadas. Para remediar esto, desacoplamos estos dos aspectos y los implementamos de manera evolutiva: la exploración se fomenta decodificando a partir de instrucciones mutadas, y la explotación se representa como el reemplazo periódico de generaciones poco recompensadas con otras bien recompensadas. Evidencias empíricas indican que esta estrategia supera a muchos enfoques de optimización de preferencias y alineación en tiempo de decodificación en dos puntos de referencia de alineación ampliamente aceptados: AlpacaEval 2 y MT-Bench. Nuestra implementación estará disponible en: https://darwin-alignment.github.io.
English
The widespread applicability and increasing omnipresence of LLMs have
instigated a need to align LLM responses to user and stakeholder preferences.
Many preference optimization approaches have been proposed that fine-tune LLM
parameters to achieve good alignment. However, such parameter tuning is known
to interfere with model performance on many tasks. Moreover, keeping up with
shifting user preferences is tricky in such a situation. Decoding-time
alignment with reward model guidance solves these issues at the cost of
increased inference time. However, most of such methods fail to strike the
right balance between exploration and exploitation of reward -- often due to
the conflated formulation of these two aspects - to give well-aligned
responses. To remedy this we decouple these two aspects and implement them in
an evolutionary fashion: exploration is enforced by decoding from mutated
instructions and exploitation is represented as the periodic replacement of
poorly-rewarded generations with well-rewarded ones. Empirical evidences
indicate that this strategy outperforms many preference optimization and
decode-time alignment approaches on two widely accepted alignment benchmarks
AlpacaEval 2 and MT-Bench. Our implementation will be available at:
https://darwin-alignment.github.io.Summary
AI-Generated Summary