Sprachmodelle können sich selbst in der Zustandswertschätzung verbessern, um die Suche zu optimieren.
Language Models can Self-Improve at State-Value Estimation for Better Search
March 4, 2025
Autoren: Ethan Mendes, Alan Ritter
cs.AI
Zusammenfassung
Das Sammeln von Ground-Truth-Belohnungen für Aufgabenabschlüsse oder menschlichen Demonstrationen für mehrstufige Denkaufgaben ist oft kostspielig und zeitaufwendig, insbesondere in interaktiven Bereichen wie Webaufgaben. Um diesen Engpass zu bewältigen, stellen wir Self-Taught Lookahead vor, eine selbstüberwachte Methode, die Zustandsübergangsdynamiken nutzt, um ein Wertmodell zu trainieren, das effektiv die Suche eines sprachmodellgesteuerten Suchprozesses leiten kann. Wir stellen fest, dass mittelgroße (8 Milliarden Parameter) Open-Weight-Wertmodelle, die mit Self-Taught Lookahead verbessert wurden, die Leistung eines fortschrittlichen LLM wie GPT-4o als Wertmodell erreichen können. Darüber hinaus zeigt sich, dass Self-Taught Lookahead die Leistung um 20 % steigert und die Kosten im Vergleich zu früheren LLM-basierten Baumsuchverfahren um das 37-fache reduziert, ohne dabei auf Ground-Truth-Belohnungen angewiesen zu sein.
English
Collecting ground truth task completion rewards or human demonstrations for
multi-step reasoning tasks is often cost-prohibitive and time-consuming,
especially in interactive domains like web tasks. To address this bottleneck,
we present self-taught lookahead, a self-supervised method that leverages
state-transition dynamics to train a value model capable of effectively guiding
language model-controlled search. We find that moderately sized (8 billion
parameters) open-weight value models improved with self-taught lookahead can
match the performance of using a frontier LLM such as gpt-4o as the value
model. Furthermore, we find that self-taught lookahead improves performance by
20% while reducing costs 37x compared to previous LLM-based tree search,
without relying on ground truth rewards.Summary
AI-Generated Summary