ChatPaper.aiChatPaper

Los Modelos de Lenguaje pueden Automejorarse en la Estimación de Valor de Estado para una Búsqueda más Efectiva

Language Models can Self-Improve at State-Value Estimation for Better Search

March 4, 2025
Autores: Ethan Mendes, Alan Ritter
cs.AI

Resumen

Recopilar recompensas por la finalización de tareas con datos de referencia o demostraciones humanas para tareas de razonamiento de múltiples pasos suele ser costoso y consume mucho tiempo, especialmente en dominios interactivos como las tareas web. Para abordar este cuello de botella, presentamos el método de "autoaprendizaje con visión anticipada" (self-taught lookahead), una técnica autosupervisada que aprovecha la dinámica de transición de estados para entrenar un modelo de valor capaz de guiar eficazmente la búsqueda controlada por modelos de lenguaje. Descubrimos que modelos de valor de tamaño moderado (8 mil millones de parámetros) de código abierto, mejorados con este enfoque, pueden igualar el rendimiento de utilizar un modelo de lenguaje de última generación como GPT-4 como modelo de valor. Además, observamos que el método de autoaprendizaje con visión anticipada mejora el rendimiento en un 20% mientras reduce los costos 37 veces en comparación con búsquedas en árbol basadas en modelos de lenguaje anteriores, sin depender de recompensas con datos de referencia.
English
Collecting ground truth task completion rewards or human demonstrations for multi-step reasoning tasks is often cost-prohibitive and time-consuming, especially in interactive domains like web tasks. To address this bottleneck, we present self-taught lookahead, a self-supervised method that leverages state-transition dynamics to train a value model capable of effectively guiding language model-controlled search. We find that moderately sized (8 billion parameters) open-weight value models improved with self-taught lookahead can match the performance of using a frontier LLM such as gpt-4o as the value model. Furthermore, we find that self-taught lookahead improves performance by 20% while reducing costs 37x compared to previous LLM-based tree search, without relying on ground truth rewards.

Summary

AI-Generated Summary

PDF102March 5, 2025