ChatPaper.aiChatPaper

Decodificación rápida de los mejores N a través de rechazo especulativo.

Fast Best-of-N Decoding via Speculative Rejection

October 26, 2024
Autores: Hanshi Sun, Momin Haider, Ruiqi Zhang, Huitao Yang, Jiahao Qiu, Ming Yin, Mengdi Wang, Peter Bartlett, Andrea Zanette
cs.AI

Resumen

La implementación segura y efectiva de Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) implica un paso crítico llamado alineación, que garantiza que las respuestas del modelo estén en concordancia con las preferencias humanas. Técnicas de alineación prevalentes, como DPO, PPO y sus variantes, alinean los LLMs modificando los pesos del modelo pre-entrenado durante una fase llamada post-entrenamiento. Aunque predominantes, estos métodos de post-entrenamiento añaden una complejidad sustancial antes de que los LLMs puedan ser implementados. Los métodos de alineación en tiempo de inferencia evitan el paso complejo de post-entrenamiento y en su lugar sesgan la generación hacia respuestas alineadas con las preferencias humanas. El método de alineación en tiempo de inferencia más conocido, llamado Mejor-de-N, es tan efectivo como los procedimientos de post-entrenamiento de vanguardia. Desafortunadamente, Mejor-de-N requiere considerablemente más recursos en tiempo de inferencia que las estrategias de decodificación estándar, lo que lo hace computacionalmente inviable. En este trabajo, presentamos el Rechazo Especulativo, un algoritmo de alineación en tiempo de inferencia computacionalmente viable. Genera respuestas con puntajes altos de acuerdo con un modelo de recompensa dado, al igual que Mejor-de-N, siendo entre 16 y 32 veces más eficiente computacionalmente.
English
The safe and effective deployment of Large Language Models (LLMs) involves a critical step called alignment, which ensures that the model's responses are in accordance with human preferences. Prevalent alignment techniques, such as DPO, PPO and their variants, align LLMs by changing the pre-trained model weights during a phase called post-training. While predominant, these post-training methods add substantial complexity before LLMs can be deployed. Inference-time alignment methods avoid the complex post-training step and instead bias the generation towards responses that are aligned with human preferences. The best-known inference-time alignment method, called Best-of-N, is as effective as the state-of-the-art post-training procedures. Unfortunately, Best-of-N requires vastly more resources at inference time than standard decoding strategies, which makes it computationally not viable. In this work, we introduce Speculative Rejection, a computationally-viable inference-time alignment algorithm. It generates high-scoring responses according to a given reward model, like Best-of-N does, while being between 16 to 32 times more computationally efficient.

Summary

AI-Generated Summary

PDF102November 16, 2024