QLASS : Amélioration de l'inférence des agents linguistiques via une recherche pas à pas guidée par Q.
QLASS: Boosting Language Agent Inference via Q-Guided Stepwise Search
February 4, 2025
Auteurs: Zongyu Lin, Yao Tang, Xingcheng Yao, Da Yin, Ziniu Hu, Yizhou Sun, Kai-Wei Chang
cs.AI
Résumé
Les agents linguistiques sont devenus une solution prometteuse pour les tâches interactives complexes. L'un des éléments clés du succès des agents linguistiques est le modèle de récompense sur la trajectoire du flux de travail de l'agent, qui fournit des orientations précieuses pendant l'entraînement ou l'inférence. Cependant, en raison du manque d'annotations des interactions intermédiaires, la plupart des travaux existants utilisent un modèle de récompense de résultat pour optimiser les politiques sur l'ensemble des trajectoires. Cela peut conduire à des politiques sous-optimales et entraver les performances globales. Pour remédier à cela, nous proposons QLASS (Recherche par étapes guidée par Q pour les agents linguistiques), pour générer automatiquement des annotations en estimant les valeurs Q de manière progressive pour les agents linguistiques en langage naturel. En introduisant un arbre de raisonnement et en effectuant une modélisation de récompense de processus, QLASS fournit des orientations intermédiaires efficaces pour chaque étape. Avec ces orientations progressives, nous proposons une stratégie de génération guidée par Q pour permettre aux agents linguistiques de mieux s'adapter à la valeur à long terme, ce qui se traduit par une amélioration significative des performances lors de l'inférence du modèle sur des tâches d'agents interactifs complexes. Notamment, même avec presque la moitié des données annotées, QLASS conserve de solides performances, démontrant son efficacité dans la gestion de la supervision limitée. Nous démontrons également empiriquement que QLASS peut conduire à une prise de décision plus efficace grâce à une analyse qualitative. Nous rendrons notre code et nos données publics.
English
Language agents have become a promising solution to complex interactive
tasks. One of the key ingredients to the success of language agents is the
reward model on the trajectory of the agentic workflow, which provides valuable
guidance during training or inference. However, due to the lack of annotations
of intermediate interactions, most existing works use an outcome reward model
to optimize policies across entire trajectories. This may lead to sub-optimal
policies and hinder the overall performance. To address this, we propose QLASS
(Q-guided Language Agent Stepwise Search), to automatically generate
annotations by estimating Q-values in a stepwise manner for open language
agents. By introducing a reasoning tree and performing process reward modeling,
QLASS provides effective intermediate guidance for each step. With the stepwise
guidance, we propose a Q-guided generation strategy to enable language agents
to better adapt to long-term value, resulting in significant performance
improvement during model inference on complex interactive agent tasks. Notably,
even with almost half the annotated data, QLASS retains strong performance,
demonstrating its efficiency in handling limited supervision. We also
empirically demonstrate that QLASS can lead to more effective decision making
through qualitative analysis. We will release our code and data.Summary
AI-Generated Summary