QLASS: Усиление вывода языкового агента с помощью пошагового поиска, управляемого Q-значениями

Аннотация

Языковые агенты стали многообещающим решением для выполнения сложных интерактивных задач. Одним из ключевых элементов успеха языковых агентов является модель вознаграждения на траектории агентного рабочего процесса, которая обеспечивает ценное руководство во время обучения или вывода. Однако из-за отсутствия аннотаций промежуточных взаимодействий большинство существующих работ используют модель исходного вознаграждения для оптимизации политик на всей траектории. Это может привести к субоптимальным политикам и затруднить общую производительность. Для решения этой проблемы мы предлагаем QLASS (Q-управляемый поиск шаг за шагом языкового агента), чтобы автоматически генерировать аннотации путем оценки Q-значений пошагово для открытых языковых агентов. Вводя дерево рассуждений и выполняя моделирование процесса вознаграждения, QLASS обеспечивает эффективное промежуточное руководство для каждого шага. С пошаговым руководством мы предлагаем стратегию генерации, управляемую Q, чтобы позволить языковым агентам лучше адаптироваться к долгосрочной ценности, что приводит к значительному улучшению производительности во время вывода модели на сложных интерактивных задачах агента. Особенно стоит отметить, что даже с почти половиной аннотированных данных QLASS сохраняет высокую производительность, демонстрируя свою эффективность в обработке ограниченного наблюдения. Мы также эмпирически демонстрируем, что QLASS может привести к более эффективному принятию решений через качественный анализ. Мы опубликуем наш код и данные.

English

Language agents have become a promising solution to complex interactive tasks. One of the key ingredients to the success of language agents is the reward model on the trajectory of the agentic workflow, which provides valuable guidance during training or inference. However, due to the lack of annotations of intermediate interactions, most existing works use an outcome reward model to optimize policies across entire trajectories. This may lead to sub-optimal policies and hinder the overall performance. To address this, we propose QLASS (Q-guided Language Agent Stepwise Search), to automatically generate annotations by estimating Q-values in a stepwise manner for open language agents. By introducing a reasoning tree and performing process reward modeling, QLASS provides effective intermediate guidance for each step. With the stepwise guidance, we propose a Q-guided generation strategy to enable language agents to better adapt to long-term value, resulting in significant performance improvement during model inference on complex interactive agent tasks. Notably, even with almost half the annotated data, QLASS retains strong performance, demonstrating its efficiency in handling limited supervision. We also empirically demonstrate that QLASS can lead to more effective decision making through qualitative analysis. We will release our code and data.

QLASS: Усиление вывода языкового агента с помощью пошагового поиска, управляемого Q-значениями

QLASS: Boosting Language Agent Inference via Q-Guided Stepwise Search

Аннотация

Support