ChatPaper.aiChatPaper

QLASS: Potenziare l'Inferenza dell'Agente Linguistico tramite la Ricerca Graduale Guidata da Q

QLASS: Boosting Language Agent Inference via Q-Guided Stepwise Search

February 4, 2025
Autori: Zongyu Lin, Yao Tang, Xingcheng Yao, Da Yin, Ziniu Hu, Yizhou Sun, Kai-Wei Chang
cs.AI

Abstract

Gli agenti linguistici sono diventati una soluzione promettente per compiti interattivi complessi. Uno degli ingredienti chiave per il successo degli agenti linguistici è il modello di ricompensa sulla traiettoria del flusso di lavoro agente, che fornisce preziose indicazioni durante l'addestramento o l'inferenza. Tuttavia, a causa della mancanza di annotazioni delle interazioni intermedie, la maggior parte dei lavori esistenti utilizza un modello di ricompensa finale per ottimizzare le politiche lungo intere traiettorie. Ciò potrebbe portare a politiche subottimali e ostacolare le prestazioni complessive. Per affrontare questo problema, proponiamo QLASS (Q-guided Language Agent Stepwise Search), per generare automaticamente annotazioni stimando i valori Q in modo graduale per agenti linguistici aperti. Introducendo un albero di ragionamento e svolgendo la modellazione della ricompensa del processo, QLASS fornisce una guida intermedia efficace per ciascun passo. Con la guida graduale, proponiamo una strategia di generazione guidata da Q per consentire agli agenti linguistici di adattarsi meglio al valore a lungo termine, con un significativo miglioramento delle prestazioni durante l'inferenza del modello su compiti di agenti interattivi complessi. In particolare, anche con quasi la metà dei dati annotati, QLASS mantiene prestazioni elevate, dimostrando la sua efficienza nel gestire una supervisione limitata. Dimostriamo anche empiricamente che QLASS può portare a decisioni più efficaci attraverso un'analisi qualitativa. Rilasceremo il nostro codice e i dati.
English
Language agents have become a promising solution to complex interactive tasks. One of the key ingredients to the success of language agents is the reward model on the trajectory of the agentic workflow, which provides valuable guidance during training or inference. However, due to the lack of annotations of intermediate interactions, most existing works use an outcome reward model to optimize policies across entire trajectories. This may lead to sub-optimal policies and hinder the overall performance. To address this, we propose QLASS (Q-guided Language Agent Stepwise Search), to automatically generate annotations by estimating Q-values in a stepwise manner for open language agents. By introducing a reasoning tree and performing process reward modeling, QLASS provides effective intermediate guidance for each step. With the stepwise guidance, we propose a Q-guided generation strategy to enable language agents to better adapt to long-term value, resulting in significant performance improvement during model inference on complex interactive agent tasks. Notably, even with almost half the annotated data, QLASS retains strong performance, demonstrating its efficiency in handling limited supervision. We also empirically demonstrate that QLASS can lead to more effective decision making through qualitative analysis. We will release our code and data.

Summary

AI-Generated Summary

PDF172February 5, 2025