Quando é que a supervisão em nível de trajetória permite a Aprendizagem por Reforço Offline Eficiente?

Resumo

O aprendizado por reforço offline é tipicamente analisado sob supervisão de recompensa em nível de processo, no entanto, muitos conjuntos de dados de decisão sequencial registram apenas resultados em nível de trajetória. Desenvolvemos uma teoria estatística para otimização de políticas offline a partir dessa supervisão em nível de resultado. Primeiramente, estudamos o cenário canônico onde o alvo permanece a recompensa cumulativa esperada, mas cada trajetória offline fornece apenas um rótulo escalar cuja média condicional é o retorno cumulativo. Propomos o OPAC, um algoritmo ator-crítico pessimista que aprende um modelo de recompensa latente e otimiza uma política a partir de rótulos em nível de trajetória. Provamos uma garantia de alta probabilidade da ordem $\widetilde{O}\big(H^2 C_{\text{sa}(\pi^\star)} / n\big)$ e um limite inferior correspondente, caracterizando o custo estatístico preciso de substituir recompensas em nível de processo por um rótulo em nível de trajetória. Em seguida, estendemos o princípio para feedback baseado em preferências, preservando a dependência principal do horizonte e da concentrabilidade até constantes do modelo de preferência. Finalmente, estudamos o RL offline generalizado baseado em resultados, onde tanto a supervisão quanto o objetivo são quantidades em nível de trajetória induzidas por uma agregação não linear de recompensas latentes por passo. Esse problema não é aprendível em geral: para objetivos de sucesso total, qualquer aprendiz offline pode exigir $\Omega(2^H)$ trajetórias mesmo com transições determinísticas e concentrabilidade constante. Em seguida, identificamos um regime tratável através de dois coeficientes estruturais, $\kappa_\mu(\sigma)$ e $\chi_\mu(\sigma)$, que capturam a perda de informação na agregação de resultados e nas atualizações generalizadas de Bellman, sob os quais o OPAC generalizado alcança complexidade amostral polinomial. Juntos, nossos resultados delineiam quando a supervisão em nível de resultado possibilita um controle offline eficiente em termos de amostras e quando a falta de recompensas em nível de processo cria barreiras estatísticas fundamentais.

English

Offline reinforcement learning is typically analyzed under process-level reward supervision, yet many sequential decision datasets record only trajectory-level outcomes. We develop a statistical theory for offline policy optimization from such outcome-level supervision. We first study the canonical setting where the target remains the expected cumulative reward, but each offline trajectory provides only a scalar label whose conditional mean is the cumulative return. We propose OPAC, a pessimistic actor-critic algorithm that learns a latent reward model and optimizes a policy from trajectory-level labels. We prove a high-probability guarantee of order widetilde O(H^2C_{sa(π^star)/n}) and a matching lower bound, characterizing the sharp statistical cost of replacing process-level rewards with one trajectory-level label. We then extend the principle to preference-based feedback, preserving the leading horizon and concentrability dependence up to preference-model constants. Finally, we study generalized outcome-based offline RL, where both the supervision and the objective are trajectory-level quantities induced by a nonlinear aggregation of latent per-step rewards. This problem is not learnable in general: for all-success objectives, any offline learner may require Ω(2^H) trajectories even with deterministic transitions and constant concentrability. We then identify a tractable regime through two structural coefficients, κ_μ(σ) and χ_μ(σ), capturing information loss in outcome aggregation and generalized Bellman updates, under which generalized OPAC achieves polynomial sample complexity. Together, our results delineate when outcome-level supervision enables sample-efficient offline control and when missing process-level rewards create fundamental statistical barriers.