QLASS: Mejorando la Inferencia del Agente de Lenguaje a través de la Búsqueda Paso a Paso Guiada por Q
QLASS: Boosting Language Agent Inference via Q-Guided Stepwise Search
February 4, 2025
Autores: Zongyu Lin, Yao Tang, Xingcheng Yao, Da Yin, Ziniu Hu, Yizhou Sun, Kai-Wei Chang
cs.AI
Resumen
Los agentes de lenguaje se han convertido en una solución prometedora para tareas interactivas complejas. Uno de los ingredientes clave para el éxito de los agentes de lenguaje es el modelo de recompensa en la trayectoria del flujo de trabajo agente, que proporciona una guía valiosa durante el entrenamiento o la inferencia. Sin embargo, debido a la falta de anotaciones de interacciones intermedias, la mayoría de los trabajos existentes utilizan un modelo de recompensa de resultado para optimizar políticas a lo largo de trayectorias completas. Esto puede llevar a políticas subóptimas y obstaculizar el rendimiento general. Para abordar esto, proponemos QLASS (Búsqueda Paso a Paso de Agente de Lenguaje Guiado por Q), para generar automáticamente anotaciones estimando valores Q de manera escalonada para agentes de lenguaje abiertos. Al introducir un árbol de razonamiento y realizar modelado de recompensa de proceso, QLASS proporciona una guía intermedia efectiva para cada paso. Con la guía paso a paso, proponemos una estrategia de generación guiada por Q para permitir que los agentes de lenguaje se adapten mejor al valor a largo plazo, lo que resulta en una mejora significativa del rendimiento durante la inferencia del modelo en tareas de agente interactivo complejas. Es importante destacar que, incluso con casi la mitad de los datos anotados, QLASS mantiene un rendimiento sólido, demostrando su eficiencia en el manejo de supervisión limitada. También demostramos empíricamente que QLASS puede llevar a una toma de decisiones más efectiva a través de un análisis cualitativo. Publicaremos nuestro código y datos.
English
Language agents have become a promising solution to complex interactive
tasks. One of the key ingredients to the success of language agents is the
reward model on the trajectory of the agentic workflow, which provides valuable
guidance during training or inference. However, due to the lack of annotations
of intermediate interactions, most existing works use an outcome reward model
to optimize policies across entire trajectories. This may lead to sub-optimal
policies and hinder the overall performance. To address this, we propose QLASS
(Q-guided Language Agent Stepwise Search), to automatically generate
annotations by estimating Q-values in a stepwise manner for open language
agents. By introducing a reasoning tree and performing process reward modeling,
QLASS provides effective intermediate guidance for each step. With the stepwise
guidance, we propose a Q-guided generation strategy to enable language agents
to better adapt to long-term value, resulting in significant performance
improvement during model inference on complex interactive agent tasks. Notably,
even with almost half the annotated data, QLASS retains strong performance,
demonstrating its efficiency in handling limited supervision. We also
empirically demonstrate that QLASS can lead to more effective decision making
through qualitative analysis. We will release our code and data.