¿Cuándo permite la supervisión a nivel de trayectoria un aprendizaje por refuerzo fuera de línea eficiente?

Resumen

El aprendizaje por refuerzo fuera de línea se analiza típicamente bajo supervisión de recompensas a nivel de proceso, pero muchos conjuntos de datos de decisiones secuenciales registran solo resultados a nivel de trayectoria. Desarrollamos una teoría estadística para la optimización de políticas fuera de línea a partir de dicha supervisión a nivel de resultados. Primero estudiamos el entorno canónico donde el objetivo sigue siendo la recompensa acumulada esperada, pero cada trayectoria fuera de línea proporciona solo una etiqueta escalar cuya media condicional es el retorno acumulado. Proponemos OPAC, un algoritmo actor-crítico pesimista que aprende un modelo de recompensa latente y optimiza una política a partir de etiquetas a nivel de trayectoria. Demostramos una garantía de alta probabilidad de orden \(\widetilde{O}(H^2 C_{\text{sa}(\pi^\star)}/n)\) y una cota inferior correspondiente, que caracterizan el coste estadístico ajustado de sustituir recompensas a nivel de proceso por una etiqueta a nivel de trayectoria. Luego extendemos el principio a la retroalimentación basada en preferencias, preservando la dependencia principal del horizonte y la concentrabilidad hasta constantes del modelo de preferencias. Finalmente, estudiamos el RL fuera de línea basado en resultados generalizados, donde tanto la supervisión como el objetivo son cantidades a nivel de trayectoria inducidas por una agregación no lineal de recompensas latentes por paso. Este problema no es aprendible en general: para objetivos de éxito total, cualquier algoritmo fuera de línea puede requerir \(\Omega(2^H)\) trayectorias incluso con transiciones deterministas y concentrabilidad constante. Identificamos entonces un régimen tratable mediante dos coeficientes estructurales, \(\kappa_{\mu}(\sigma)\) y \(\chi_{\mu}(\sigma)\), que capturan la pérdida de información en la agregación de resultados y las actualizaciones generalizadas de Bellman, bajo los cuales OPAC generalizado alcanza una complejidad muestral polinómica. En conjunto, nuestros resultados delinean cuándo la supervisión a nivel de resultados permite un control fuera de línea eficiente en muestras y cuándo la falta de recompensas a nivel de proceso crea barreras estadísticas fundamentales.

English

Offline reinforcement learning is typically analyzed under process-level reward supervision, yet many sequential decision datasets record only trajectory-level outcomes. We develop a statistical theory for offline policy optimization from such outcome-level supervision. We first study the canonical setting where the target remains the expected cumulative reward, but each offline trajectory provides only a scalar label whose conditional mean is the cumulative return. We propose OPAC, a pessimistic actor-critic algorithm that learns a latent reward model and optimizes a policy from trajectory-level labels. We prove a high-probability guarantee of order widetilde O(H^2C_{sa(π^star)/n}) and a matching lower bound, characterizing the sharp statistical cost of replacing process-level rewards with one trajectory-level label. We then extend the principle to preference-based feedback, preserving the leading horizon and concentrability dependence up to preference-model constants. Finally, we study generalized outcome-based offline RL, where both the supervision and the objective are trajectory-level quantities induced by a nonlinear aggregation of latent per-step rewards. This problem is not learnable in general: for all-success objectives, any offline learner may require Ω(2^H) trajectories even with deterministic transitions and constant concentrability. We then identify a tractable regime through two structural coefficients, κ_μ(σ) and χ_μ(σ), capturing information loss in outcome aggregation and generalized Bellman updates, under which generalized OPAC achieves polynomial sample complexity. Together, our results delineate when outcome-level supervision enables sample-efficient offline control and when missing process-level rewards create fundamental statistical barriers.