QLASS: Aumentando a Inferência do Agente de Linguagem por meio da Busca Passo a Passo Guiada por Q
QLASS: Boosting Language Agent Inference via Q-Guided Stepwise Search
February 4, 2025
Autores: Zongyu Lin, Yao Tang, Xingcheng Yao, Da Yin, Ziniu Hu, Yizhou Sun, Kai-Wei Chang
cs.AI
Resumo
Os agentes de linguagem tornaram-se uma solução promissora para tarefas interativas complexas. Um dos principais elementos para o sucesso dos agentes de linguagem é o modelo de recompensa na trajetória do fluxo de trabalho do agente, que fornece orientação valiosa durante o treinamento ou inferência. No entanto, devido à falta de anotações de interações intermediárias, a maioria dos trabalhos existentes utiliza um modelo de recompensa de resultado para otimizar políticas em trajetórias completas. Isso pode resultar em políticas subótimas e prejudicar o desempenho geral. Para lidar com isso, propomos o QLASS (Busca Passo a Passo de Agente de Linguagem Guiado por Q), para gerar automaticamente anotações estimando os valores Q de maneira passo a passo para agentes de linguagem aberta. Ao introduzir uma árvore de raciocínio e realizar modelagem de recompensa de processo, o QLASS fornece orientação intermediária eficaz para cada etapa. Com a orientação passo a passo, propomos uma estratégia de geração guiada por Q para permitir que os agentes de linguagem se adaptem melhor ao valor de longo prazo, resultando em melhorias significativas de desempenho durante a inferência do modelo em tarefas de agente interativo complexas. Notavelmente, mesmo com quase metade dos dados anotados, o QLASS mantém um desempenho sólido, demonstrando sua eficiência no tratamento de supervisão limitada. Também demonstramos empiricamente que o QLASS pode levar a tomadas de decisão mais eficazes por meio de análises qualitativas. Vamos disponibilizar nosso código e dados.
English
Language agents have become a promising solution to complex interactive
tasks. One of the key ingredients to the success of language agents is the
reward model on the trajectory of the agentic workflow, which provides valuable
guidance during training or inference. However, due to the lack of annotations
of intermediate interactions, most existing works use an outcome reward model
to optimize policies across entire trajectories. This may lead to sub-optimal
policies and hinder the overall performance. To address this, we propose QLASS
(Q-guided Language Agent Stepwise Search), to automatically generate
annotations by estimating Q-values in a stepwise manner for open language
agents. By introducing a reasoning tree and performing process reward modeling,
QLASS provides effective intermediate guidance for each step. With the stepwise
guidance, we propose a Q-guided generation strategy to enable language agents
to better adapt to long-term value, resulting in significant performance
improvement during model inference on complex interactive agent tasks. Notably,
even with almost half the annotated data, QLASS retains strong performance,
demonstrating its efficiency in handling limited supervision. We also
empirically demonstrate that QLASS can lead to more effective decision making
through qualitative analysis. We will release our code and data.Summary
AI-Generated Summary