Optimización Iterativa de la Función de Valor para Decodificación Guiada
Iterative Value Function Optimization for Guided Decoding
March 4, 2025
Autores: Zhenhua Liu, Lijun Li, Ruizhe Chen, Yuxian Jiang, Tong Zhu, Wenliang Chen, Jing Shao
cs.AI
Resumen
Si bien el Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF) se ha convertido en el método predominante para controlar las salidas de los modelos de lenguaje, adolece de altos costos computacionales e inestabilidad en el entrenamiento. La decodificación guiada, especialmente los métodos basados en valores, ofrece una alternativa rentable al controlar las salidas sin necesidad de reentrenar los modelos. Sin embargo, la precisión de la función de valor es crucial para la decodificación guiada por valores, ya que las imprecisiones pueden llevar a una toma de decisiones subóptima y a un rendimiento degradado. Los métodos existentes tienen dificultades para estimar con precisión la función de valor óptima, lo que resulta en un control menos efectivo. Proponemos la Optimización Iterativa de la Función de Valor, un marco novedoso que aborda estas limitaciones a través de dos componentes clave: la Estimación de Valor por Monte Carlo, que reduce la varianza de la estimación explorando trayectorias diversas, y la Optimización Iterativa sobre la Política, que mejora progresivamente la estimación del valor mediante la recopilación de trayectorias de políticas guiadas por valores. Experimentos exhaustivos en resumen de texto, diálogo multiturno y seguimiento de instrucciones demuestran la efectividad de los enfoques de decodificación guiada por valores en la alineación de modelos de lenguaje. Estos enfoques no solo logran la alineación, sino que también reducen significativamente los costos computacionales al aprovechar la optimización de la función de valor basada en principios para un control eficiente y efectivo.
English
While Reinforcement Learning from Human Feedback (RLHF) has become the
predominant method for controlling language model outputs, it suffers from high
computational costs and training instability. Guided decoding, especially
value-guided methods, offers a cost-effective alternative by controlling
outputs without re-training models. However, the accuracy of the value function
is crucial for value-guided decoding, as inaccuracies can lead to suboptimal
decision-making and degraded performance. Existing methods struggle with
accurately estimating the optimal value function, leading to less effective
control. We propose Iterative Value Function Optimization, a novel framework
that addresses these limitations through two key components: Monte Carlo Value
Estimation, which reduces estimation variance by exploring diverse
trajectories, and Iterative On-Policy Optimization, which progressively
improves value estimation through collecting trajectories from value-guided
policies. Extensive experiments on text summarization, multi-turn dialogue, and
instruction following demonstrate the effectiveness of value-guided decoding
approaches in aligning language models. These approaches not only achieve
alignment but also significantly reduce computational costs by leveraging
principled value function optimization for efficient and effective control.Summary
AI-Generated Summary