Sprachmodelle können sich selbst in der Zustandswertschätzung verbessern, um die Suche zu optimieren.

Zusammenfassung

Das Sammeln von Ground-Truth-Belohnungen für Aufgabenabschlüsse oder menschlichen Demonstrationen für mehrstufige Denkaufgaben ist oft kostspielig und zeitaufwendig, insbesondere in interaktiven Bereichen wie Webaufgaben. Um diesen Engpass zu bewältigen, stellen wir Self-Taught Lookahead vor, eine selbstüberwachte Methode, die Zustandsübergangsdynamiken nutzt, um ein Wertmodell zu trainieren, das effektiv die Suche eines sprachmodellgesteuerten Suchprozesses leiten kann. Wir stellen fest, dass mittelgroße (8 Milliarden Parameter) Open-Weight-Wertmodelle, die mit Self-Taught Lookahead verbessert wurden, die Leistung eines fortschrittlichen LLM wie GPT-4o als Wertmodell erreichen können. Darüber hinaus zeigt sich, dass Self-Taught Lookahead die Leistung um 20 % steigert und die Kosten im Vergleich zu früheren LLM-basierten Baumsuchverfahren um das 37-fache reduziert, ohne dabei auf Ground-Truth-Belohnungen angewiesen zu sein.

English

Collecting ground truth task completion rewards or human demonstrations for multi-step reasoning tasks is often cost-prohibitive and time-consuming, especially in interactive domains like web tasks. To address this bottleneck, we present self-taught lookahead, a self-supervised method that leverages state-transition dynamics to train a value model capable of effectively guiding language model-controlled search. We find that moderately sized (8 billion parameters) open-weight value models improved with self-taught lookahead can match the performance of using a frontier LLM such as gpt-4o as the value model. Furthermore, we find that self-taught lookahead improves performance by 20% while reducing costs 37x compared to previous LLM-based tree search, without relying on ground truth rewards.

Sprachmodelle können sich selbst in der Zustandswertschätzung verbessern, um die Suche zu optimieren.

Language Models can Self-Improve at State-Value Estimation for Better Search

Zusammenfassung

Summary

Support

Support