A^2TGPO: Агентная оптимизация политики на уровне ходов с адаптивным ограничением на каждом ходе

Аннотация

Обучение с подкреплением для агентных больших языковых моделей (БЯМ) обычно опирается на разреженное вознаграждение на уровне траектории, что затрудняет оценку вклада отдельных вызовов инструментов в рамках многоходовых взаимодействий. Существующие подходы к такому распределению заслуг на уровне процесса либо зависят от отдельных внешних моделей вознаграждения за процесс, что влечет дополнительные затраты, либо используют структурное развертывание на основе деревьев, которое лишь перераспределяет сигнал результата, ограничивая при этом разнообразие траекторий. Перспективная альтернатива использует изменение предсказанной политикой вероятности эталонного ответа на каждом шаге, называемое Информационным Приростом (ИП), в качестве внутреннего сигнала процесса без привлечения внешнего оценщика. Однако предыдущие работы, использующие сигналы ИП в цикле обучения с подкреплением, сталкиваются с тремя системными проблемами: нормализация между шагами, имеющими различный позиционный контекст, может искажать относительную значимость отдельных шагов; накопление переменного числа слагаемых приводит к дрейфу величины преимущества в зависимости от глубины траектории; а фиксированный диапазон отсечения одинаково управляет обновлением политики для шагов с сильно различающимися сигналами ИП. В данной статье мы предлагаем A²TGPO (Агентная оптимизация политики по группам шагов с адаптивным поэтапным отсечением), которая сохраняет ИП в качестве внутреннего сигнала, но пересматривает принципы его нормализации, накопления и использования: (i) нормализация по группам шагов: нормализует ИП внутри каждой группы (промпт, индекс шага), так что каждый шаг сравнивается только с аналогичными шагами на той же глубине взаимодействия; (ii) дисконтированное накопление с масштабированием по дисперсии: делит кумулятивный нормализованный ИП на квадратный корень из количества накопленных слагаемых, чтобы сохранить сопоставимость величин преимущества на разных позициях шагов; и (iii) адаптивное поэтапное отсечение: регулирует диапазон отсечения для каждого шага на основе его нормализованного ИП, расширяя область обновления для информативных шагов и сужая ее для неинформативных.

English

Reinforcement learning for agentic large language models (LLMs) typically relies on a sparse, trajectory-level outcome reward, making it difficult to evaluate the contribution of individual tool-calls within multi-turn interactions. Existing approaches to such process credit assignment either depend on separate external process reward models that introduce additional consumption, or tree-based structural rollout that merely redistributes the outcome signal while constraining trajectory diversity. A promising alternative leverages the per-turn change in the policy's predicted probability of the ground-truth, termed Information Gain (IG), as an intrinsic process signal without an external evaluator. However, prior work on leveraging IG signals within the RL training loop faces three systematic challenges: normalizing across turns that face heterogeneous positional contexts can distort the relative standing of individual turns, accumulating a variable number of terms causes advantage magnitudes to drift with trajectory depth, and a fixed clipping range governs policy updates identically for turns with vastly different IG signals. In this paper, we propose A^2TGPO (Agentic Turn-Group Policy Optimization with Adaptive Turn-level Clipping), which retains IG as the intrinsic signal but re-designs how it is normalized, accumulated, and consumed: (i) turn-group normalization: normalizes IG within each (prompt, turn-index) group so that each turn is compared only against peers at the same interaction depth; (ii) variance-rescaled discounted accumulation: divides cumulative normalized IG by square root of accumulated terms to keep advantage magnitudes comparable across turn positions; and (iii) adaptive turn-level clipping: modulates each turn's clipping range based on its normalized IG, widening the update region for informative turns and narrowing it for uninformative ones.

A^2TGPO: Агентная оптимизация политики на уровне ходов с адаптивным ограничением на каждом ходе

A^2TGPO: Agentic Turn-Group Policy Optimization with Adaptive Turn-level Clipping

Аннотация

Support