Taalmodelen kunnen zichzelf verbeteren in staatswaarde-inschatting voor betere zoekresultaten.

Samenvatting

Het verzamelen van grondwaarde beloningen voor taakvoltooiing of menselijke demonstraties voor meerstaps redeneertaken is vaak kostbaar en tijdrovend, vooral in interactieve domeinen zoals webtaken. Om dit knelpunt aan te pakken, presenteren we self-taught lookahead, een zelfgesuperviseerde methode die gebruikmaakt van staatsovergangsdynamiek om een waardemodel te trainen dat effectief kan sturen bij zoekacties die worden gecontroleerd door taalmodel. We ontdekken dat middelgrote (8 miljard parameters) open-weight waardemodellen die zijn verbeterd met self-taught lookahead, de prestaties kunnen evenaren van het gebruik van een geavanceerd LLM zoals gpt-4o als waardemodel. Bovendien constateren we dat self-taught lookahead de prestaties met 20% verbetert terwijl de kosten 37x worden verlaagd in vergelijking met eerdere LLM-gebaseerde boomzoekmethoden, zonder afhankelijk te zijn van grondwaarde beloningen.

English

Collecting ground truth task completion rewards or human demonstrations for multi-step reasoning tasks is often cost-prohibitive and time-consuming, especially in interactive domains like web tasks. To address this bottleneck, we present self-taught lookahead, a self-supervised method that leverages state-transition dynamics to train a value model capable of effectively guiding language model-controlled search. We find that moderately sized (8 billion parameters) open-weight value models improved with self-taught lookahead can match the performance of using a frontier LLM such as gpt-4o as the value model. Furthermore, we find that self-taught lookahead improves performance by 20% while reducing costs 37x compared to previous LLM-based tree search, without relying on ground truth rewards.

Taalmodelen kunnen zichzelf verbeteren in staatswaarde-inschatting voor betere zoekresultaten.

Language Models can Self-Improve at State-Value Estimation for Better Search

Samenvatting

Summary

Support

Support