Proben, nicht Suchen: Eine Neubetrachtung der Testzeit-Anpassung für Sprachmodelle
Sample, Don't Search: Rethinking Test-Time Alignment for Language Models
April 4, 2025
Autoren: Gonçalo Faria, Noah A. Smith
cs.AI
Zusammenfassung
Die Erhöhung der Rechenleistung zur Testzeit hat sich als vielversprechende Richtung zur Verbesserung der Leistung von Sprachmodellen erwiesen, insbesondere in Szenarien, in denen das Feinabstimmen des Modells aufgrund von Rechenbeschränkungen oder privaten Modellgewichten unpraktisch oder unmöglich ist. Allerdings verschlechtern sich bestehende Suchmethoden zur Testzeit, die ein Belohnungsmodell (RM) verwenden, oft in ihrer Qualität, wenn die Rechenleistung skaliert wird, aufgrund der Überoptimierung von inhärent unvollkommenen Belohnungsproxys. Wir stellen QAlign vor, einen neuen Ansatz zur Ausrichtung zur Testzeit. Während wir die Rechenleistung zur Testzeit skalieren, konvergiert QAlign zur Stichprobenentnahme aus der optimal ausgerichteten Verteilung für jede individuelle Eingabeaufforderung. Durch die Übernahme neuer Fortschritte in der Markov-Ketten-Monte-Carlo-Methode für die Textgenerierung ermöglicht unsere Methode besser ausgerichtete Ausgaben, ohne das zugrunde liegende Modell zu verändern oder sogar Zugriff auf Logits zu benötigen. Wir demonstrieren die Wirksamkeit von QAlign anhand von Benchmarks für mathematisches Denken (GSM8K und GSM-Symbolic) unter Verwendung eines aufgabenbezogenen RM und zeigen konsistente Verbesserungen gegenüber bestehenden Methoden zur Rechenleistung zur Testzeit wie Best-of-n und Mehrheitsentscheidung. Darüber hinaus übertrifft QAlign, wenn es mit realistischeren RMs angewendet wird, die auf dem Tulu 3-Präferenzdatensatz trainiert wurden, die direkte Präferenzoptimierung (DPO), Best-of-n, Mehrheitsentscheidung und gewichtete Mehrheitsentscheidung auf einer Vielzahl von Datensätzen (GSM8K, MATH500, IFEval, MMLU-Redux und TruthfulQA). Als praktische Lösung zur Ausrichtung von Sprachmodellen zur Testzeit unter Verwendung zusätzlicher Rechenleistung ohne Verschlechterung erweitert unser Ansatz die Grenzen der Fähigkeiten, die aus Standard-Sprachmodellen ohne weiteres Training erzielt werden können.
English
Increasing test-time computation has emerged as a promising direction for
improving language model performance, particularly in scenarios where model
finetuning is impractical or impossible due to computational constraints or
private model weights. However, existing test-time search methods using a
reward model (RM) often degrade in quality as compute scales, due to the
over-optimization of what are inherently imperfect reward proxies. We introduce
QAlign, a new test-time alignment approach. As we scale test-time compute,
QAlign converges to sampling from the optimal aligned distribution for each
individual prompt. By adopting recent advances in Markov chain Monte Carlo for
text generation, our method enables better-aligned outputs without modifying
the underlying model or even requiring logit access. We demonstrate the
effectiveness of QAlign on mathematical reasoning benchmarks (GSM8K and
GSM-Symbolic) using a task-specific RM, showing consistent improvements over
existing test-time compute methods like best-of-n and majority voting.
Furthermore, when applied with more realistic RMs trained on the Tulu 3
preference dataset, QAlign outperforms direct preference optimization (DPO),
best-of-n, majority voting, and weighted majority voting on a diverse range of
datasets (GSM8K, MATH500, IFEval, MMLU-Redux, and TruthfulQA). A practical
solution to aligning language models at test time using additional computation
without degradation, our approach expands the limits of the capability that can
be obtained from off-the-shelf language models without further training.