ChatPaper.aiChatPaper

QLASS: Het verbeteren van taalagentinferentie via Q-geleide stapsgewijze zoekactie.

QLASS: Boosting Language Agent Inference via Q-Guided Stepwise Search

February 4, 2025
Auteurs: Zongyu Lin, Yao Tang, Xingcheng Yao, Da Yin, Ziniu Hu, Yizhou Sun, Kai-Wei Chang
cs.AI

Samenvatting

Taalagenten zijn een veelbelovende oplossing geworden voor complexe interactieve taken. Een van de belangrijkste ingrediënten voor het succes van taalagenten is het beloningsmodel op de traject van de agentische workflow, dat waardevolle begeleiding biedt tijdens training of inferentie. Vanwege het gebrek aan annotaties van tussenliggende interacties gebruiken de meeste bestaande werken echter een uitkomstbeloningsmodel om beleidslijnen te optimaliseren over hele trajecten. Dit kan leiden tot suboptimale beleidslijnen en de algehele prestaties belemmeren. Om dit aan te pakken, stellen we QLASS (Q-geleide Taalagent Stapsgewijze Zoektocht) voor, om automatisch annotaties te genereren door Q-waarden stapsgewijs te schatten voor open taalagenten. Door een redeneringsboom te introduceren en procesbeloningsmodellering uit te voeren, biedt QLASS effectieve tussenliggende begeleiding voor elke stap. Met de stapsgewijze begeleiding stellen we een Q-geleide generatiestrategie voor om taalagenten in staat te stellen zich beter aan te passen aan langetermijnwaarde, resulterend in aanzienlijke prestatieverbetering tijdens modelinferentie op complexe interactieve agenttaken. Opmerkelijk is dat, zelfs met bijna de helft van de geannoteerde gegevens, QLASS sterke prestaties behoudt, wat de efficiëntie ervan in het omgaan met beperkt toezicht aantoont. We tonen ook empirisch aan dat QLASS kan leiden tot effectievere besluitvorming door kwalitatieve analyse. We zullen onze code en gegevens vrijgeven.
English
Language agents have become a promising solution to complex interactive tasks. One of the key ingredients to the success of language agents is the reward model on the trajectory of the agentic workflow, which provides valuable guidance during training or inference. However, due to the lack of annotations of intermediate interactions, most existing works use an outcome reward model to optimize policies across entire trajectories. This may lead to sub-optimal policies and hinder the overall performance. To address this, we propose QLASS (Q-guided Language Agent Stepwise Search), to automatically generate annotations by estimating Q-values in a stepwise manner for open language agents. By introducing a reasoning tree and performing process reward modeling, QLASS provides effective intermediate guidance for each step. With the stepwise guidance, we propose a Q-guided generation strategy to enable language agents to better adapt to long-term value, resulting in significant performance improvement during model inference on complex interactive agent tasks. Notably, even with almost half the annotated data, QLASS retains strong performance, demonstrating its efficiency in handling limited supervision. We also empirically demonstrate that QLASS can lead to more effective decision making through qualitative analysis. We will release our code and data.

Summary

AI-Generated Summary

PDF172February 5, 2025