Wann ermöglicht Überwachung auf Trajektorienebene effizientes Offline Reinforcement Learning?
When Does Trajectory-Level Supervision Permit Efficient Offline Reinforcement Learning?
June 16, 2026
Autoren: Xuanfei Ren, Tengyang Xie
cs.AI
Zusammenfassung
Offline Reinforcement Learning wird typischerweise unter Belohnungsüberwachung auf Prozessebene analysiert, doch viele sequenzielle Entscheidungsdatensätze erfassen nur Ergebnisse auf Trajektorienebene. Wir entwickeln eine statistische Theorie für die offline Politikoptimierung aus solchen Ergebnissen auf Ausgangsebene. Zunächst untersuchen wir das kanonische Szenario, bei dem das Ziel die erwartete kumulative Belohnung bleibt, jede offline Trajektorie jedoch nur eine skalare Kennzahl liefert, deren bedingter Erwartungswert der kumulative Ertrag ist. Wir schlagen OPAC vor, einen pessimistischen Actor-Critic-Algorithmus, der ein latentes Belohnungsmodell lernt und eine Politik aus Kennzahlen auf Trajektorienebene optimiert. Wir beweisen eine Hochwahrscheinlichkeitsgarantie der Ordnung \(\widetilde{O}(H^2 C_{\text{sa}}(\pi^\star)/n)\) sowie eine passende untere Schranke, die die scharfen statistischen Kosten des Ersatzes von Belohnungen auf Prozessebene durch eine Kennzahl auf Trajektorienebene charakterisiert. Anschließend erweitern wir das Prinzip auf präferenzbasiertes Feedback, wobei die führende Horizont- und Konzentrierbarkeitsabhängigkeit bis auf präferenzmodellspezifische Konstanten erhalten bleibt. Schließlich untersuchen wir das verallgemeinerte ergebnisbasierte Offline Reinforcement Learning, bei dem sowohl die Überwachung als auch das Ziel Größen auf Trajektorienebene sind, die durch eine nichtlineare Aggregation latenter schrittweiser Belohnungen induziert werden. Dieses Problem ist im Allgemeinen nicht lernbar: Für „Alles-Erfolg“-Ziele benötigt jeder offline Lernende möglicherweise \(\Omega(2^H)\) Trajektorien, selbst bei deterministischen Übergängen und konstanter Konzentrierbarkeit. Wir identifizieren dann durch zwei strukturelle Koeffizienten, \(\kappa_\mu(\sigma)\) und \(\chi_\mu(\sigma)\), die den Informationsverlust bei der Ergebnisaggregation und bei verallgemeinerten Bellman-Updates erfassen, einen handhabbaren Bereich, in dem das verallgemeinerte OPAC eine polynomielle Stichprobenkomplexität erreicht. Zusammengenommen zeigen unsere Ergebnisse, wann Überwachung auf Ausgangsebene ein stichprobeneffizientes Offline-Controlling ermöglicht und wann fehlende Prozessbelohnungen grundlegende statistische Barrieren schaffen.
English
Offline reinforcement learning is typically analyzed under process-level reward supervision, yet many sequential decision datasets
record only trajectory-level outcomes. We develop a statistical theory for offline policy optimization from such outcome-level
supervision. We first study the canonical setting where the target remains the expected cumulative reward, but each offline trajectory
provides only a scalar label whose conditional mean is the cumulative return. We propose OPAC, a pessimistic actor-critic algorithm
that learns a latent reward model and optimizes a policy from trajectory-level labels. We prove a high-probability guarantee of order
widetilde O(H^2C_{sa(π^star)/n}) and a matching lower bound, characterizing the sharp statistical cost of replacing
process-level rewards with one trajectory-level label. We then extend the principle to preference-based feedback, preserving the
leading horizon and concentrability dependence up to preference-model constants. Finally, we study generalized outcome-based offline
RL, where both the supervision and the objective are trajectory-level quantities induced by a nonlinear aggregation of latent per-step
rewards. This problem is not learnable in general: for all-success objectives, any offline learner may require Ω(2^H)
trajectories even with deterministic transitions and constant concentrability. We then identify a tractable regime through two
structural coefficients, κ_μ(σ) and χ_μ(σ), capturing information loss in outcome aggregation and
generalized Bellman updates, under which generalized OPAC achieves polynomial sample complexity. Together, our results delineate when
outcome-level supervision enables sample-efficient offline control and when missing process-level rewards create fundamental
statistical barriers.