Otimização Iterativa da Função de Valor para Decodificação Guiada
Iterative Value Function Optimization for Guided Decoding
March 4, 2025
Autores: Zhenhua Liu, Lijun Li, Ruizhe Chen, Yuxian Jiang, Tong Zhu, Wenliang Chen, Jing Shao
cs.AI
Resumo
Embora o Aprendizado por Reforço com Feedback Humano (RLHF) tenha se tornado o método predominante para controlar as saídas de modelos de linguagem, ele sofre com altos custos computacionais e instabilidade durante o treinamento. A decodificação guiada, especialmente os métodos baseados em valor, oferece uma alternativa econômica ao controlar as saídas sem a necessidade de retreinar os modelos. No entanto, a precisão da função de valor é crucial para a decodificação guiada por valor, pois imprecisões podem levar a tomadas de decisão subótimas e degradação do desempenho. Os métodos existentes enfrentam dificuldades em estimar com precisão a função de valor ideal, resultando em um controle menos eficaz. Propomos a Otimização Iterativa da Função de Valor, uma nova estrutura que aborda essas limitações por meio de dois componentes principais: a Estimação de Valor por Monte Carlo, que reduz a variância da estimativa ao explorar trajetórias diversas, e a Otimização Iterativa On-Policy, que melhora progressivamente a estimativa de valor ao coletar trajetórias de políticas guiadas por valor. Experimentos extensivos em sumarização de texto, diálogo multi-turn e seguimento de instruções demonstram a eficácia das abordagens de decodificação guiada por valor no alinhamento de modelos de linguagem. Essas abordagens não apenas alcançam o alinhamento, mas também reduzem significativamente os custos computacionais ao aproveitar a otimização fundamentada da função de valor para um controle eficiente e eficaz.
English
While Reinforcement Learning from Human Feedback (RLHF) has become the
predominant method for controlling language model outputs, it suffers from high
computational costs and training instability. Guided decoding, especially
value-guided methods, offers a cost-effective alternative by controlling
outputs without re-training models. However, the accuracy of the value function
is crucial for value-guided decoding, as inaccuracies can lead to suboptimal
decision-making and degraded performance. Existing methods struggle with
accurately estimating the optimal value function, leading to less effective
control. We propose Iterative Value Function Optimization, a novel framework
that addresses these limitations through two key components: Monte Carlo Value
Estimation, which reduces estimation variance by exploring diverse
trajectories, and Iterative On-Policy Optimization, which progressively
improves value estimation through collecting trajectories from value-guided
policies. Extensive experiments on text summarization, multi-turn dialogue, and
instruction following demonstrate the effectiveness of value-guided decoding
approaches in aligning language models. These approaches not only achieve
alignment but also significantly reduce computational costs by leveraging
principled value function optimization for efficient and effective control.Summary
AI-Generated Summary