Les modèles de langage peuvent s'auto-améliorer dans l'estimation des valeurs d'état pour optimiser la recherche.
Language Models can Self-Improve at State-Value Estimation for Better Search
March 4, 2025
Auteurs: Ethan Mendes, Alan Ritter
cs.AI
Résumé
La collecte de récompenses de réalisation de tâches ou de démonstrations humaines pour des tâches de raisonnement à plusieurs étapes est souvent coûteuse et chronophage, en particulier dans des domaines interactifs comme les tâches web. Pour résoudre ce goulot d'étranglement, nous présentons la méthode d'anticipation auto-apprise, une approche auto-supervisée qui exploite la dynamique des transitions d'état pour entraîner un modèle de valeur capable de guider efficacement la recherche contrôlée par un modèle de langage. Nous constatons que des modèles de valeur de taille modérée (8 milliards de paramètres) à poids ouverts, améliorés par l'anticipation auto-apprise, peuvent égaler les performances d'un modèle de langage de pointe tel que GPT-4 utilisé comme modèle de valeur. De plus, nous observons que l'anticipation auto-apprise améliore les performances de 20 % tout en réduisant les coûts par un facteur de 37 par rapport aux méthodes précédentes de recherche arborescente basées sur des LLM, sans recourir à des récompenses de référence.
English
Collecting ground truth task completion rewards or human demonstrations for
multi-step reasoning tasks is often cost-prohibitive and time-consuming,
especially in interactive domains like web tasks. To address this bottleneck,
we present self-taught lookahead, a self-supervised method that leverages
state-transition dynamics to train a value model capable of effectively guiding
language model-controlled search. We find that moderately sized (8 billion
parameters) open-weight value models improved with self-taught lookahead can
match the performance of using a frontier LLM such as gpt-4o as the value
model. Furthermore, we find that self-taught lookahead improves performance by
20% while reducing costs 37x compared to previous LLM-based tree search,
without relying on ground truth rewards.Summary
AI-Generated Summary