Wann ermöglicht Überwachung auf Trajektorienebene effizientes Offline Reinforcement Learning?

Zusammenfassung

Offline Reinforcement Learning wird typischerweise unter Belohnungsüberwachung auf Prozessebene analysiert, doch viele sequenzielle Entscheidungsdatensätze erfassen nur Ergebnisse auf Trajektorienebene. Wir entwickeln eine statistische Theorie für die offline Politikoptimierung aus solchen Ergebnissen auf Ausgangsebene. Zunächst untersuchen wir das kanonische Szenario, bei dem das Ziel die erwartete kumulative Belohnung bleibt, jede offline Trajektorie jedoch nur eine skalare Kennzahl liefert, deren bedingter Erwartungswert der kumulative Ertrag ist. Wir schlagen OPAC vor, einen pessimistischen Actor-Critic-Algorithmus, der ein latentes Belohnungsmodell lernt und eine Politik aus Kennzahlen auf Trajektorienebene optimiert. Wir beweisen eine Hochwahrscheinlichkeitsgarantie der Ordnung \(\widetilde{O}(H^2 C_{\text{sa}}(\pi^\star)/n)\) sowie eine passende untere Schranke, die die scharfen statistischen Kosten des Ersatzes von Belohnungen auf Prozessebene durch eine Kennzahl auf Trajektorienebene charakterisiert. Anschließend erweitern wir das Prinzip auf präferenzbasiertes Feedback, wobei die führende Horizont- und Konzentrierbarkeitsabhängigkeit bis auf präferenzmodellspezifische Konstanten erhalten bleibt. Schließlich untersuchen wir das verallgemeinerte ergebnisbasierte Offline Reinforcement Learning, bei dem sowohl die Überwachung als auch das Ziel Größen auf Trajektorienebene sind, die durch eine nichtlineare Aggregation latenter schrittweiser Belohnungen induziert werden. Dieses Problem ist im Allgemeinen nicht lernbar: Für „Alles-Erfolg“-Ziele benötigt jeder offline Lernende möglicherweise \(\Omega(2^H)\) Trajektorien, selbst bei deterministischen Übergängen und konstanter Konzentrierbarkeit. Wir identifizieren dann durch zwei strukturelle Koeffizienten, \(\kappa_\mu(\sigma)\) und \(\chi_\mu(\sigma)\), die den Informationsverlust bei der Ergebnisaggregation und bei verallgemeinerten Bellman-Updates erfassen, einen handhabbaren Bereich, in dem das verallgemeinerte OPAC eine polynomielle Stichprobenkomplexität erreicht. Zusammengenommen zeigen unsere Ergebnisse, wann Überwachung auf Ausgangsebene ein stichprobeneffizientes Offline-Controlling ermöglicht und wann fehlende Prozessbelohnungen grundlegende statistische Barrieren schaffen.

English

Offline reinforcement learning is typically analyzed under process-level reward supervision, yet many sequential decision datasets record only trajectory-level outcomes. We develop a statistical theory for offline policy optimization from such outcome-level supervision. We first study the canonical setting where the target remains the expected cumulative reward, but each offline trajectory provides only a scalar label whose conditional mean is the cumulative return. We propose OPAC, a pessimistic actor-critic algorithm that learns a latent reward model and optimizes a policy from trajectory-level labels. We prove a high-probability guarantee of order widetilde O(H^2C_{sa(π^star)/n}) and a matching lower bound, characterizing the sharp statistical cost of replacing process-level rewards with one trajectory-level label. We then extend the principle to preference-based feedback, preserving the leading horizon and concentrability dependence up to preference-model constants. Finally, we study generalized outcome-based offline RL, where both the supervision and the objective are trajectory-level quantities induced by a nonlinear aggregation of latent per-step rewards. This problem is not learnable in general: for all-success objectives, any offline learner may require Ω(2^H) trajectories even with deterministic transitions and constant concentrability. We then identify a tractable regime through two structural coefficients, κ_μ(σ) and χ_μ(σ), capturing information loss in outcome aggregation and generalized Bellman updates, under which generalized OPAC achieves polynomial sample complexity. Together, our results delineate when outcome-level supervision enables sample-efficient offline control and when missing process-level rewards create fundamental statistical barriers.