ChatPaper.aiChatPaper

Iterative Optimierung der Wertfunktion für gelenkte Dekodierung

Iterative Value Function Optimization for Guided Decoding

March 4, 2025
Autoren: Zhenhua Liu, Lijun Li, Ruizhe Chen, Yuxian Jiang, Tong Zhu, Wenliang Chen, Jing Shao
cs.AI

Zusammenfassung

Während Reinforcement Learning from Human Feedback (RLHF) die vorherrschende Methode zur Steuerung von Sprachmodellausgaben geworden ist, leidet sie unter hohen Rechenkosten und Instabilität während des Trainings. Gesteuertes Decodieren, insbesondere wertgesteuerte Methoden, bietet eine kosteneffiziente Alternative, indem es Ausgaben kontrolliert, ohne Modelle neu zu trainieren. Die Genauigkeit der Wertfunktion ist jedoch entscheidend für wertgesteuertes Decodieren, da Ungenauigkeiten zu suboptimalen Entscheidungen und verschlechterter Leistung führen können. Bestehende Methoden kämpfen mit der präzisen Schätzung der optimalen Wertfunktion, was zu weniger effektiver Kontrolle führt. Wir schlagen Iterative Value Function Optimization vor, ein neuartiges Framework, das diese Einschränkungen durch zwei Schlüsselkomponenten adressiert: Monte Carlo Value Estimation, das die Schätzvarianz durch die Erkundung diverser Trajektorien reduziert, und Iterative On-Policy Optimization, das die Wertschätzung durch das Sammeln von Trajektorien aus wertgesteuerten Richtlinien schrittweise verbessert. Umfangreiche Experimente zur Textzusammenfassung, mehrschrittigen Dialogen und Befolgung von Anweisungen demonstrieren die Wirksamkeit wertgesteuerter Decodierungsansätze bei der Ausrichtung von Sprachmodellen. Diese Ansätze erreichen nicht nur eine Ausrichtung, sondern reduzieren auch die Rechenkosten erheblich, indem sie eine prinzipienbasierte Optimierung der Wertfunktion für eine effiziente und effektive Kontrolle nutzen.
English
While Reinforcement Learning from Human Feedback (RLHF) has become the predominant method for controlling language model outputs, it suffers from high computational costs and training instability. Guided decoding, especially value-guided methods, offers a cost-effective alternative by controlling outputs without re-training models. However, the accuracy of the value function is crucial for value-guided decoding, as inaccuracies can lead to suboptimal decision-making and degraded performance. Existing methods struggle with accurately estimating the optimal value function, leading to less effective control. We propose Iterative Value Function Optimization, a novel framework that addresses these limitations through two key components: Monte Carlo Value Estimation, which reduces estimation variance by exploring diverse trajectories, and Iterative On-Policy Optimization, which progressively improves value estimation through collecting trajectories from value-guided policies. Extensive experiments on text summarization, multi-turn dialogue, and instruction following demonstrate the effectiveness of value-guided decoding approaches in aligning language models. These approaches not only achieve alignment but also significantly reduce computational costs by leveraging principled value function optimization for efficient and effective control.

Summary

AI-Generated Summary

PDF152March 5, 2025