QLASS: Verbesserung der Sprachagenteninferenz durch Q-gesteuerte schrittweise Suche

papers.abstract

Sprachagenten sind zu einer vielversprechenden Lösung für komplexe interaktive Aufgaben geworden. Einer der Schlüsselbestandteile für den Erfolg von Sprachagenten ist das Belohnungsmodell auf der Trajektorie des agentischen Arbeitsablaufs, das während des Trainings oder der Inferenz wertvolle Anleitung bietet. Aufgrund des Mangels an Annotationen für Zwischeninteraktionen verwenden die meisten bestehenden Arbeiten jedoch ein Ergebnis-Belohnungsmodell, um Richtlinien über gesamte Trajektorien zu optimieren. Dies kann zu suboptimalen Richtlinien führen und die Gesamtleistung beeinträchtigen. Um dies zu lösen, schlagen wir QLASS (Q-geführte Sprachagenten schrittweise Suche) vor, um automatisch Annotationen zu generieren, indem Q-Werte schrittweise für offene Sprachagenten geschätzt werden. Durch die Einführung eines Überlegungsbaums und die Durchführung einer Prozess-Belohnungsmodellierung bietet QLASS effektive Zwischenanleitung für jeden Schritt. Mit der schrittweisen Anleitung schlagen wir eine Q-geführte Generierungsstrategie vor, um Sprachagenten eine bessere Anpassung an langfristigen Wert zu ermöglichen, was zu signifikanten Leistungsverbesserungen während der Modellinferenz bei komplexen interaktiven Agentenaufgaben führt. Bemerkenswert ist, dass QLASS auch mit fast der Hälfte der annotierten Daten starke Leistung beibehält und damit seine Effizienz im Umgang mit begrenzter Überwachung zeigt. Wir zeigen auch empirisch, dass QLASS zu effektiveren Entscheidungen durch qualitative Analyse führen kann. Wir werden unseren Code und unsere Daten veröffentlichen.

English

Language agents have become a promising solution to complex interactive tasks. One of the key ingredients to the success of language agents is the reward model on the trajectory of the agentic workflow, which provides valuable guidance during training or inference. However, due to the lack of annotations of intermediate interactions, most existing works use an outcome reward model to optimize policies across entire trajectories. This may lead to sub-optimal policies and hinder the overall performance. To address this, we propose QLASS (Q-guided Language Agent Stepwise Search), to automatically generate annotations by estimating Q-values in a stepwise manner for open language agents. By introducing a reasoning tree and performing process reward modeling, QLASS provides effective intermediate guidance for each step. With the stepwise guidance, we propose a Q-guided generation strategy to enable language agents to better adapt to long-term value, resulting in significant performance improvement during model inference on complex interactive agent tasks. Notably, even with almost half the annotated data, QLASS retains strong performance, demonstrating its efficiency in handling limited supervision. We also empirically demonstrate that QLASS can lead to more effective decision making through qualitative analysis. We will release our code and data.

QLASS: Verbesserung der Sprachagenteninferenz durch Q-gesteuerte schrittweise Suche

QLASS: Boosting Language Agent Inference via Q-Guided Stepwise Search

papers.abstract

Support