Taalmodelen kunnen zichzelf verbeteren in staatswaarde-inschatting voor betere zoekresultaten.
Language Models can Self-Improve at State-Value Estimation for Better Search
March 4, 2025
Auteurs: Ethan Mendes, Alan Ritter
cs.AI
Samenvatting
Het verzamelen van grondwaarde beloningen voor taakvoltooiing of menselijke demonstraties voor meerstaps redeneertaken is vaak kostbaar en tijdrovend, vooral in interactieve domeinen zoals webtaken. Om dit knelpunt aan te pakken, presenteren we self-taught lookahead, een zelfgesuperviseerde methode die gebruikmaakt van staatsovergangsdynamiek om een waardemodel te trainen dat effectief kan sturen bij zoekacties die worden gecontroleerd door taalmodel. We ontdekken dat middelgrote (8 miljard parameters) open-weight waardemodellen die zijn verbeterd met self-taught lookahead, de prestaties kunnen evenaren van het gebruik van een geavanceerd LLM zoals gpt-4o als waardemodel. Bovendien constateren we dat self-taught lookahead de prestaties met 20% verbetert terwijl de kosten 37x worden verlaagd in vergelijking met eerdere LLM-gebaseerde boomzoekmethoden, zonder afhankelijk te zijn van grondwaarde beloningen.
English
Collecting ground truth task completion rewards or human demonstrations for
multi-step reasoning tasks is often cost-prohibitive and time-consuming,
especially in interactive domains like web tasks. To address this bottleneck,
we present self-taught lookahead, a self-supervised method that leverages
state-transition dynamics to train a value model capable of effectively guiding
language model-controlled search. We find that moderately sized (8 billion
parameters) open-weight value models improved with self-taught lookahead can
match the performance of using a frontier LLM such as gpt-4o as the value
model. Furthermore, we find that self-taught lookahead improves performance by
20% while reducing costs 37x compared to previous LLM-based tree search,
without relying on ground truth rewards.Summary
AI-Generated Summary