ChatPaper.aiChatPaper

Aprenda Seu Modelo de Referência para um Alinhamento Realmente Eficaz

Learn Your Reference Model for Real Good Alignment

April 15, 2024
Autores: Alexey Gorbatovski, Boris Shaposhnikov, Alexey Malakhov, Nikita Surnachev, Yaroslav Aksenov, Ian Maksimov, Nikita Balagansky, Daniil Gavrilov
cs.AI

Resumo

A complexidade do problema de alinhamento decorre do fato de que os métodos existentes são instáveis. Pesquisadores continuamente inventam diversos truques para abordar essa deficiência. Por exemplo, na técnica fundamental de Aprendizado por Reforço com Feedback Humano (RLHF) para alinhamento de Modelos de Linguagem, além da maximização da recompensa, a divergência de Kullback-Leibler entre a política treinável e a política SFT é minimizada. Essa adição impede que o modelo se ajuste excessivamente ao Modelo de Recompensa (RM) e gere textos que estejam fora do domínio do RM. O método de Otimização Direta de Preferências (DPO) reformula a tarefa de otimização do RLHF e elimina o Modelo de Recompensa, mantendo tacitamente a exigência de que a política permaneça próxima da política SFT. Em nosso artigo, argumentamos que essa limitação implícita no método DPO leva a resultados subótimos. Propomos um novo método chamado DPO com Região de Confiança (TR-DPO), que atualiza a política de referência durante o treinamento. Com essa atualização direta, demonstramos a eficácia do TR-DPO em comparação ao DPO nos conjuntos de dados Anthropic HH e TLDR. Mostramos que o TR-DPO supera o DPO em até 19%, medido por avaliação automática com GPT-4. A nova abordagem de alinhamento que propomos nos permite melhorar a qualidade dos modelos em vários parâmetros simultaneamente, como coerência, correção, nível de detalhe, utilidade e inofensividade.
English
The complexity of the alignment problem stems from the fact that existing methods are unstable. Researchers continuously invent various tricks to address this shortcoming. For instance, in the fundamental Reinforcement Learning From Human Feedback (RLHF) technique of Language Model alignment, in addition to reward maximization, the Kullback-Leibler divergence between the trainable policy and the SFT policy is minimized. This addition prevents the model from being overfitted to the Reward Model (RM) and generating texts that are out-of-domain for the RM. The Direct Preference Optimization (DPO) method reformulates the optimization task of RLHF and eliminates the Reward Model while tacitly maintaining the requirement for the policy to be close to the SFT policy. In our paper, we argue that this implicit limitation in the DPO method leads to sub-optimal results. We propose a new method called Trust Region DPO (TR-DPO), which updates the reference policy during training. With such a straightforward update, we demonstrate the effectiveness of TR-DPO against DPO on the Anthropic HH and TLDR datasets. We show that TR-DPO outperforms DPO by up to 19%, measured by automatic evaluation with GPT-4. The new alignment approach that we propose allows us to improve the quality of models across several parameters at once, such as coherence, correctness, level of detail, helpfulness, and harmlessness.
PDF880December 15, 2024