ChatPaper.aiChatPaper

Modelos de Linguagem Podem Melhorar Automaticamente a Estimativa de Valor de Estado para uma Busca Mais Eficiente

Language Models can Self-Improve at State-Value Estimation for Better Search

March 4, 2025
Autores: Ethan Mendes, Alan Ritter
cs.AI

Resumo

Coletar recompensas de conclusão de tarefas com base em dados reais ou demonstrações humanas para tarefas de raciocínio de múltiplos passos é frequentemente proibitivo em termos de custos e demorado, especialmente em domínios interativos como tarefas na web. Para abordar esse gargalo, apresentamos o método de "self-taught lookahead", uma abordagem auto-supervisionada que aproveita a dinâmica de transição de estados para treinar um modelo de valor capaz de guiar efetivamente a busca controlada por modelos de linguagem. Descobrimos que modelos de valor de tamanho moderado (8 bilhões de parâmetros) e de código aberto, aprimorados com o "self-taught lookahead", podem igualar o desempenho de usar um modelo de linguagem de ponta, como o GPT-4, como modelo de valor. Além disso, observamos que o "self-taught lookahead" melhora o desempenho em 20% enquanto reduz os custos em 37 vezes em comparação com buscas em árvore baseadas em modelos de linguagem anteriores, sem depender de recompensas baseadas em dados reais.
English
Collecting ground truth task completion rewards or human demonstrations for multi-step reasoning tasks is often cost-prohibitive and time-consuming, especially in interactive domains like web tasks. To address this bottleneck, we present self-taught lookahead, a self-supervised method that leverages state-transition dynamics to train a value model capable of effectively guiding language model-controlled search. We find that moderately sized (8 billion parameters) open-weight value models improved with self-taught lookahead can match the performance of using a frontier LLM such as gpt-4o as the value model. Furthermore, we find that self-taught lookahead improves performance by 20% while reducing costs 37x compared to previous LLM-based tree search, without relying on ground truth rewards.

Summary

AI-Generated Summary

PDF102March 5, 2025