Quand la supervision au niveau de la trajectoire permet-elle un apprentissage par renforcement hors ligne efficace ?

Résumé

L'apprentissage par renforcement hors ligne est typiquement analysé sous une supervision des récompenses au niveau des processus, pourtant de nombreux ensembles de données de décisions séquentielles n'enregistrent que des résultats au niveau des trajectoires. Nous développons une théorie statistique pour l'optimisation de politique hors ligne à partir d'une telle supervision au niveau des résultats. Nous étudions d'abord le cadre canonique où la cible reste la récompense cumulative attendue, mais chaque trajectoire hors ligne ne fournit qu'une étiquette scalaire dont la moyenne conditionnelle est le retour cumulé. Nous proposons OPAC, un algorithme acteur-critique pessimiste qui apprend un modèle de récompense latent et optimise une politique à partir d'étiquettes au niveau des trajectoires. Nous prouvons une garantie à haute probabilité d'ordre \(\widetilde{O}\left(\frac{H^2 C_{sa(\pi^*)}}{n}\right)\) et une borne inférieure correspondante, caractérisant le coût statistique précis du remplacement des récompenses au niveau des processus par une seule étiquette au niveau de la trajectoire. Nous étendons ensuite le principe aux retours basés sur les préférences, en préservant la dépendance en horizon et en concentrabilité jusqu'aux constantes du modèle de préférence. Enfin, nous étudions le RL hors ligne généralisé basé sur les résultats, où la supervision et l'objectif sont des quantités au niveau des trajectoires induites par une agrégation non linéaire des récompenses latentes par étape. Ce problème n'est pas apprenable en général : pour des objectifs de tout-succès, tout apprenant hors ligne peut nécessiter \(\Omega(2^H)\) trajectoires même avec des transitions déterministes et une concentrabilité constante. Nous identifions ensuite un régime traitable à travers deux coefficients structurels, \(\kappa_\mu(\sigma)\) et \(\chi_\mu(\sigma)\), capturant la perte d'information dans l'agrégation des résultats et les mises à jour généralisées de Bellman, sous lesquelles OPAC généralisé atteint une complexité d'échantillonnage polynomiale. Ensemble, nos résultats délimitent quand la supervision au niveau des résultats permet un contrôle hors ligne efficace en termes d'échantillons et quand l'absence de récompenses au niveau des processus crée des barrières statistiques fondamentales.

English

Offline reinforcement learning is typically analyzed under process-level reward supervision, yet many sequential decision datasets record only trajectory-level outcomes. We develop a statistical theory for offline policy optimization from such outcome-level supervision. We first study the canonical setting where the target remains the expected cumulative reward, but each offline trajectory provides only a scalar label whose conditional mean is the cumulative return. We propose OPAC, a pessimistic actor-critic algorithm that learns a latent reward model and optimizes a policy from trajectory-level labels. We prove a high-probability guarantee of order widetilde O(H^2C_{sa(π^star)/n}) and a matching lower bound, characterizing the sharp statistical cost of replacing process-level rewards with one trajectory-level label. We then extend the principle to preference-based feedback, preserving the leading horizon and concentrability dependence up to preference-model constants. Finally, we study generalized outcome-based offline RL, where both the supervision and the objective are trajectory-level quantities induced by a nonlinear aggregation of latent per-step rewards. This problem is not learnable in general: for all-success objectives, any offline learner may require Ω(2^H) trajectories even with deterministic transitions and constant concentrability. We then identify a tractable regime through two structural coefficients, κ_μ(σ) and χ_μ(σ), capturing information loss in outcome aggregation and generalized Bellman updates, under which generalized OPAC achieves polynomial sample complexity. Together, our results delineate when outcome-level supervision enables sample-efficient offline control and when missing process-level rewards create fundamental statistical barriers.