Когда обучение на уровне траекторий позволяет эффективное офлайн-обучение с подкреплением?
When Does Trajectory-Level Supervision Permit Efficient Offline Reinforcement Learning?
June 16, 2026
Авторы: Xuanfei Ren, Tengyang Xie
cs.AI
Аннотация
Офлайн-обучение с подкреплением обычно анализируется при надзоре за вознаграждением на уровне процессов, однако многие наборы данных последовательных решений содержат только исходы на уровне траекторий. Мы разрабатываем статистическую теорию для офлайн-оптимизации политики на основе такого надзора на уровне исходов. Сначала мы изучаем каноническую постановку, где целью остается ожидаемая суммарная награда, но каждая офлайн-траектория предоставляет только скалярную метку, условное среднее которой равно суммарной награде. Мы предлагаем OPAC — пессимистический алгоритм актера-критика, который обучает скрытую модель вознаграждения и оптимизирует политику на основе меток на уровне траекторий. Мы доказываем гарантию с высокой вероятностью порядка \(\widetilde{O}(H^2 C_{sa(\pi^\star)}/n)\) и соответствующую нижнюю границу, характеризующую резкую статистическую стоимость замены вознаграждений на уровне процессов одной меткой на уровне траекторий. Затем мы распространяем этот принцип на обратную связь на основе предпочтений, сохраняя ведущую зависимость от горизонта и концентрируемости с точностью до констант модели предпочтений. Наконец, мы изучаем обобщенный офлайн-RL на основе исходов, где как надзор, так и цель являются величинами на уровне траекторий, порожденными нелинейной агрегацией скрытых пошаговых вознаграждений. Эта задача в общем случае необучаема: для целей типа «все успехи» любой офлайн-обучающийся может потребовать \(\Omega(2^H)\) траекторий даже при детерминированных переходах и постоянной концентрируемости. Затем мы определяем разрешимый режим с помощью двух структурных коэффициентов \(\kappa_\mu(\sigma)\) и \(\chi_\mu(\sigma)\), отражающих потерю информации в агрегации исходов и обобщенных обновлениях Беллмана, при которых обобщенный OPAC достигает полиномиальной сложности по выборке. В совокупности наши результаты очерчивают, когда надзор на уровне исходов обеспечивает эффективное по выборке офлайн-управление, а когда отсутствие вознаграждений на уровне процессов создает фундаментальные статистические барьеры.
English
Offline reinforcement learning is typically analyzed under process-level reward supervision, yet many sequential decision datasets
record only trajectory-level outcomes. We develop a statistical theory for offline policy optimization from such outcome-level
supervision. We first study the canonical setting where the target remains the expected cumulative reward, but each offline trajectory
provides only a scalar label whose conditional mean is the cumulative return. We propose OPAC, a pessimistic actor-critic algorithm
that learns a latent reward model and optimizes a policy from trajectory-level labels. We prove a high-probability guarantee of order
widetilde O(H^2C_{sa(π^star)/n}) and a matching lower bound, characterizing the sharp statistical cost of replacing
process-level rewards with one trajectory-level label. We then extend the principle to preference-based feedback, preserving the
leading horizon and concentrability dependence up to preference-model constants. Finally, we study generalized outcome-based offline
RL, where both the supervision and the objective are trajectory-level quantities induced by a nonlinear aggregation of latent per-step
rewards. This problem is not learnable in general: for all-success objectives, any offline learner may require Ω(2^H)
trajectories even with deterministic transitions and constant concentrability. We then identify a tractable regime through two
structural coefficients, κ_μ(σ) and χ_μ(σ), capturing information loss in outcome aggregation and
generalized Bellman updates, under which generalized OPAC achieves polynomial sample complexity. Together, our results delineate when
outcome-level supervision enables sample-efficient offline control and when missing process-level rewards create fundamental
statistical barriers.