Wanneer maakt supervisie op trajectniveau efficiënt offline bekrachtigingsleren mogelijk?

Samenvatting

Offline reinforcement learning wordt doorgaans geanalyseerd onder procesniveau beloningssupervisie, maar veel sequentiële beslissingsdatasets registreren slechts uitkomsten op trajectniveau. We ontwikkelen een statistische theorie voor offline beleidsoptimalisatie vanuit dergelijke supervisie op uitkomstniveau. We bestuderen eerst de canonieke setting waarin het doel de verwachte cumulatieve beloning blijft, maar elk offline traject slechts een scalaire label geeft waarvan de conditionele verwachting de cumulatieve opbrengst is. We stellen OPAC voor, een pessimistisch actor-critic algoritme dat een latent beloningsmodel leert en een beleid optimaliseert op basis van labels op trajectniveau. We bewijzen een waarborg met hoge waarschijnlijkheid van orde \(\widetilde{O}\!\left(H^2 C_{s,a}(\pi^{\star})/n\right)\) en een bijpassende ondergrens, die de scherpe statistische kosten karakteriseren van het vervangen van procesniveau beloningen door één label op trajectniveau. We breiden het principe vervolgens uit naar op voorkeur gebaseerde feedback, waarbij de leidende horizon- en concentreerbaarheidsafhankelijkheid behouden blijft tot aan constanten van het voorkeursmodel. Ten slotte bestuderen we algemene uitkomstgebaseerde offline RL, waarbij zowel de supervisie als de doelstelling hoeveelheden op trajectniveau zijn, veroorzaakt door een niet-lineaire aggregatie van latente beloningen per stap. Dit probleem is in het algemeen niet leerbaar: voor all-success-doelstellingen kan elke offline leerder \(\Omega(2^{H})\) trajecten nodig hebben, zelfs met deterministische overgangen en constante concentreerbaarheid. Vervolgens identificeren we een hanteerbaar regime via twee structurele coëfficiënten, \(\kappa_{\mu}(\sigma)\) en \(\chi_{\mu}(\sigma)\), die informatieverlies in uitkomstenaggregatie en gegeneraliseerde Bellman-updates vatten, waaronder gegeneraliseerde OPAC polynomiale steekproefcomplexiteit bereikt. Samen schetsen onze resultaten wanneer supervisie op uitkomstniveau steekproefefficiënte offline controle mogelijk maakt en wanneer ontbrekende procesniveau beloningen fundamentele statistische barrières creëren.

English

Offline reinforcement learning is typically analyzed under process-level reward supervision, yet many sequential decision datasets record only trajectory-level outcomes. We develop a statistical theory for offline policy optimization from such outcome-level supervision. We first study the canonical setting where the target remains the expected cumulative reward, but each offline trajectory provides only a scalar label whose conditional mean is the cumulative return. We propose OPAC, a pessimistic actor-critic algorithm that learns a latent reward model and optimizes a policy from trajectory-level labels. We prove a high-probability guarantee of order widetilde O(H^2C_{sa(π^star)/n}) and a matching lower bound, characterizing the sharp statistical cost of replacing process-level rewards with one trajectory-level label. We then extend the principle to preference-based feedback, preserving the leading horizon and concentrability dependence up to preference-model constants. Finally, we study generalized outcome-based offline RL, where both the supervision and the objective are trajectory-level quantities induced by a nonlinear aggregation of latent per-step rewards. This problem is not learnable in general: for all-success objectives, any offline learner may require Ω(2^H) trajectories even with deterministic transitions and constant concentrability. We then identify a tractable regime through two structural coefficients, κ_μ(σ) and χ_μ(σ), capturing information loss in outcome aggregation and generalized Bellman updates, under which generalized OPAC achieves polynomial sample complexity. Together, our results delineate when outcome-level supervision enables sample-efficient offline control and when missing process-level rewards create fundamental statistical barriers.