ChatPaper.aiChatPaper

DeAL: Alineación en Tiempo de Decodificación para Modelos de Lenguaje a Gran Escala

DeAL: Decoding-time Alignment for Large Language Models

February 5, 2024
Autores: James Y. Huang, Sailik Sengupta, Daniele Bonadiman, Yi-an Lai, Arshit Gupta, Nikolaos Pappas, Saab Mansour, Katrin Kirchoff, Dan Roth
cs.AI

Resumen

Hoy en día, se espera que los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) generen contenido alineado con las preferencias humanas. El trabajo actual se centra en la alineación durante el entrenamiento del modelo, mediante técnicas como el Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF, por sus siglas en inglés). Sin embargo, no está claro si estos métodos son una elección efectiva para enseñar objetivos de alineación al modelo. En primer lugar, la incapacidad de incorporar múltiples recompensas personalizadas y la dependencia de la visión del desarrollador del modelo sobre principios universales y estáticos son limitaciones clave. En segundo lugar, los vacíos residuales en el entrenamiento del modelo y la fiabilidad de tales enfoques también son cuestionables (por ejemplo, la susceptibilidad a ser "jailbreak" incluso después del entrenamiento de seguridad). Para abordar estos problemas, proponemos DeAL, un marco que permite al usuario personalizar funciones de recompensa y habilita la Alineación en Tiempo de Decodificación de LLMs (DeAL). En esencia, vemos la decodificación como un proceso de búsqueda guiada por heurísticas y facilitamos el uso de una amplia variedad de objetivos de alineación. Nuestros experimentos con restricciones programáticas, como restricciones de palabras clave y longitud (ampliamente estudiadas en la era pre-LLM), y objetivos abstractos como la inocuidad y la utilidad (propuestos en la era post-LLM), muestran que podemos manejar compensaciones detalladas, mejorar la adherencia a los objetivos de alineación y abordar los vacíos residuales en los LLMs. Por último, aunque DeAL puede combinarse eficazmente con técnicas de RLHF y "prompting", su generalidad hace que la decodificación sea más lenta, una optimización que dejamos para trabajo futuro.
English
Large Language Models (LLMs) are nowadays expected to generate content aligned with human preferences. Current work focuses on alignment at model training time, through techniques such as Reinforcement Learning with Human Feedback (RLHF). However, it is unclear if such methods are an effective choice to teach alignment objectives to the model. First, the inability to incorporate multiple, custom rewards and reliance on a model developer's view of universal and static principles are key limitations. Second, the residual gaps in model training and the reliability of such approaches are also questionable (e.g. susceptibility to jail-breaking even after safety training). To address these, we propose DeAL, a framework that allows the user to customize reward functions and enables Decoding-time Alignment of LLMs (DeAL). At its core, we view decoding as a heuristic-guided search process and facilitate the use of a wide variety of alignment objectives. Our experiments with programmatic constraints such as keyword and length constraints (studied widely in the pre-LLM era) and abstract objectives such as harmlessness and helpfulness (proposed in the post-LLM era) show that we can DeAL with fine-grained trade-offs, improve adherence to alignment objectives, and address residual gaps in LLMs. Lastly, while DeAL can be effectively paired with RLHF and prompting techniques, its generality makes decoding slower, an optimization we leave for future work.
PDF91December 15, 2024