Acelerando a Otimização Direta de Preferências com Compartilhamento de Prefixos

Resumo

Algoritmos de otimização de preferência em pares offline tornaram-se uma abordagem popular para ajuste fino em dados de preferência, superando o ajuste fino supervisionado tradicional em várias tarefas. No entanto, implementações tradicionais frequentemente envolvem cálculos redundantes, especialmente para tarefas com prompts compartilhados longos. Introduzimos o compartilhamento de prefixo para ajuste de preferência, uma técnica inovadora que processa respostas escolhidas e rejeitadas como uma sequência com um prefixo compartilhado. Para evitar contaminação entre respostas, utilizamos uma máscara de atenção personalizada com blocos esparsos. Nosso método alcança uma melhoria de 1,1 a 1,5 vezes na taxa de treinamento em conjuntos de dados DPO populares, sem qualquer efeito na convergência. Quando combinado com empacotamento de sequência, observamos acelerações consistentes de 1,3 a 1,6 vezes, beneficiando até mesmo conjuntos de dados com comprimentos de sequência menores. Embora nos concentremos na Otimização de Preferência Direta (DPO), nossa abordagem é aplicável a outros métodos de ajuste de preferência em pares. Ao aprimorar a eficiência computacional, nosso trabalho contribui para tornar o ajuste fino baseado em preferência mais acessível para uma ampla gama de aplicações e tamanhos de modelo. Disponibilizamos nosso código aberto em https://github.com/frankxwang/dpo-prefix-sharing.

English

Offline paired preference optimization algorithms have become a popular approach for fine-tuning on preference data, outperforming traditional supervised fine-tuning in various tasks. However, traditional implementations often involve redundant computations, especially for tasks with long shared prompts. We introduce prefix sharing for preference tuning, a novel technique that processes chosen and rejected responses as one sequence with a shared prefix. To prevent cross-response contamination, we use a custom block-sparse attention mask. Our method achieves 1.1-1.5times improvement in training throughput on popular DPO datasets, without any effect on convergence. When combined with sequence packing, we observe consistent 1.3-1.6times speedups, benefiting even datasets with smaller sequence lengths. While we focus on Direct Preference Optimization (DPO), our approach is applicable to other paired preference tuning methods. By enhancing computational efficiency, our work contributes to making preference-based fine-tuning more accessible for a wider range of applications and model sizes. We open-source our code at https://github.com/frankxwang/dpo-prefix-sharing.

Acelerando a Otimização Direta de Preferências com Compartilhamento de Prefixos

Accelerating Direct Preference Optimization with Prefix Sharing

Resumo

Support