QLASS: Verbesserung der Sprachagenteninferenz durch Q-gesteuerte schrittweise Suche
QLASS: Boosting Language Agent Inference via Q-Guided Stepwise Search
February 4, 2025
Autoren: Zongyu Lin, Yao Tang, Xingcheng Yao, Da Yin, Ziniu Hu, Yizhou Sun, Kai-Wei Chang
cs.AI
Zusammenfassung
Sprachagenten sind zu einer vielversprechenden Lösung für komplexe interaktive Aufgaben geworden. Einer der Schlüsselbestandteile für den Erfolg von Sprachagenten ist das Belohnungsmodell auf der Trajektorie des agentischen Arbeitsablaufs, das während des Trainings oder der Inferenz wertvolle Anleitung bietet. Aufgrund des Mangels an Annotationen für Zwischeninteraktionen verwenden die meisten bestehenden Arbeiten jedoch ein Ergebnis-Belohnungsmodell, um Richtlinien über gesamte Trajektorien zu optimieren. Dies kann zu suboptimalen Richtlinien führen und die Gesamtleistung beeinträchtigen. Um dies zu lösen, schlagen wir QLASS (Q-geführte Sprachagenten schrittweise Suche) vor, um automatisch Annotationen zu generieren, indem Q-Werte schrittweise für offene Sprachagenten geschätzt werden. Durch die Einführung eines Überlegungsbaums und die Durchführung einer Prozess-Belohnungsmodellierung bietet QLASS effektive Zwischenanleitung für jeden Schritt. Mit der schrittweisen Anleitung schlagen wir eine Q-geführte Generierungsstrategie vor, um Sprachagenten eine bessere Anpassung an langfristigen Wert zu ermöglichen, was zu signifikanten Leistungsverbesserungen während der Modellinferenz bei komplexen interaktiven Agentenaufgaben führt. Bemerkenswert ist, dass QLASS auch mit fast der Hälfte der annotierten Daten starke Leistung beibehält und damit seine Effizienz im Umgang mit begrenzter Überwachung zeigt. Wir zeigen auch empirisch, dass QLASS zu effektiveren Entscheidungen durch qualitative Analyse führen kann. Wir werden unseren Code und unsere Daten veröffentlichen.
English
Language agents have become a promising solution to complex interactive
tasks. One of the key ingredients to the success of language agents is the
reward model on the trajectory of the agentic workflow, which provides valuable
guidance during training or inference. However, due to the lack of annotations
of intermediate interactions, most existing works use an outcome reward model
to optimize policies across entire trajectories. This may lead to sub-optimal
policies and hinder the overall performance. To address this, we propose QLASS
(Q-guided Language Agent Stepwise Search), to automatically generate
annotations by estimating Q-values in a stepwise manner for open language
agents. By introducing a reasoning tree and performing process reward modeling,
QLASS provides effective intermediate guidance for each step. With the stepwise
guidance, we propose a Q-guided generation strategy to enable language agents
to better adapt to long-term value, resulting in significant performance
improvement during model inference on complex interactive agent tasks. Notably,
even with almost half the annotated data, QLASS retains strong performance,
demonstrating its efficiency in handling limited supervision. We also
empirically demonstrate that QLASS can lead to more effective decision making
through qualitative analysis. We will release our code and data.Summary
AI-Generated Summary