ChatPaper.aiChatPaper

I modelli linguistici possono auto-migliorarsi nella stima del valore di stato per una ricerca più efficace

Language Models can Self-Improve at State-Value Estimation for Better Search

March 4, 2025
Autori: Ethan Mendes, Alan Ritter
cs.AI

Abstract

Raccogliere ricompense per il completamento di attività con verità di base o dimostrazioni umane per compiti di ragionamento a più passaggi è spesso proibitivo in termini di costi e dispendioso in termini di tempo, specialmente in domini interattivi come i compiti web. Per affrontare questo collo di bottiglia, presentiamo il "self-taught lookahead", un metodo auto-supervisionato che sfrutta le dinamiche di transizione di stato per addestrare un modello di valore in grado di guidare efficacemente la ricerca controllata da modelli linguistici. Abbiamo riscontrato che modelli di valore di dimensioni moderate (8 miliardi di parametri) con pesi aperti, migliorati con il self-taught lookahead, possono eguagliare le prestazioni di un modello LLM all'avanguardia come gpt-4o utilizzato come modello di valore. Inoltre, abbiamo osservato che il self-taught lookahead migliora le prestazioni del 20% riducendo i costi di 37 volte rispetto ai precedenti approcci di ricerca ad albero basati su LLM, senza fare affidamento su ricompense di verità di base.
English
Collecting ground truth task completion rewards or human demonstrations for multi-step reasoning tasks is often cost-prohibitive and time-consuming, especially in interactive domains like web tasks. To address this bottleneck, we present self-taught lookahead, a self-supervised method that leverages state-transition dynamics to train a value model capable of effectively guiding language model-controlled search. We find that moderately sized (8 billion parameters) open-weight value models improved with self-taught lookahead can match the performance of using a frontier LLM such as gpt-4o as the value model. Furthermore, we find that self-taught lookahead improves performance by 20% while reducing costs 37x compared to previous LLM-based tree search, without relying on ground truth rewards.

Summary

AI-Generated Summary

PDF102March 5, 2025