QLASS: Усиление вывода языкового агента с помощью пошагового поиска, управляемого Q-значениями
QLASS: Boosting Language Agent Inference via Q-Guided Stepwise Search
February 4, 2025
Авторы: Zongyu Lin, Yao Tang, Xingcheng Yao, Da Yin, Ziniu Hu, Yizhou Sun, Kai-Wei Chang
cs.AI
Аннотация
Языковые агенты стали многообещающим решением для выполнения сложных интерактивных задач. Одним из ключевых элементов успеха языковых агентов является модель вознаграждения на траектории агентного рабочего процесса, которая обеспечивает ценное руководство во время обучения или вывода. Однако из-за отсутствия аннотаций промежуточных взаимодействий большинство существующих работ используют модель исходного вознаграждения для оптимизации политик на всей траектории. Это может привести к субоптимальным политикам и затруднить общую производительность. Для решения этой проблемы мы предлагаем QLASS (Q-управляемый поиск шаг за шагом языкового агента), чтобы автоматически генерировать аннотации путем оценки Q-значений пошагово для открытых языковых агентов. Вводя дерево рассуждений и выполняя моделирование процесса вознаграждения, QLASS обеспечивает эффективное промежуточное руководство для каждого шага. С пошаговым руководством мы предлагаем стратегию генерации, управляемую Q, чтобы позволить языковым агентам лучше адаптироваться к долгосрочной ценности, что приводит к значительному улучшению производительности во время вывода модели на сложных интерактивных задачах агента. Особенно стоит отметить, что даже с почти половиной аннотированных данных QLASS сохраняет высокую производительность, демонстрируя свою эффективность в обработке ограниченного наблюдения. Мы также эмпирически демонстрируем, что QLASS может привести к более эффективному принятию решений через качественный анализ. Мы опубликуем наш код и данные.
English
Language agents have become a promising solution to complex interactive
tasks. One of the key ingredients to the success of language agents is the
reward model on the trajectory of the agentic workflow, which provides valuable
guidance during training or inference. However, due to the lack of annotations
of intermediate interactions, most existing works use an outcome reward model
to optimize policies across entire trajectories. This may lead to sub-optimal
policies and hinder the overall performance. To address this, we propose QLASS
(Q-guided Language Agent Stepwise Search), to automatically generate
annotations by estimating Q-values in a stepwise manner for open language
agents. By introducing a reasoning tree and performing process reward modeling,
QLASS provides effective intermediate guidance for each step. With the stepwise
guidance, we propose a Q-guided generation strategy to enable language agents
to better adapt to long-term value, resulting in significant performance
improvement during model inference on complex interactive agent tasks. Notably,
even with almost half the annotated data, QLASS retains strong performance,
demonstrating its efficiency in handling limited supervision. We also
empirically demonstrate that QLASS can lead to more effective decision making
through qualitative analysis. We will release our code and data.Summary
AI-Generated Summary