Apprendimento di Politiche Robotiche Conservative in Modalità Offline tramite Ripesatura delle Transizioni Posteriori

Abstract

L'adattamento offline post-addestramento modifica una politica robotica preaddestrata su un dataset target mediante regressione supervisionata sulle azioni registrate. In pratica, i dataset robotici sono eterogenei: mescolano embodiment, configurazioni di telecamere e dimostrazioni di qualità variabile, pertanto molte traiettorie riflettono comportamenti di recupero, abilità inconsistenti dell'operatore o supervisione scarsamente informativa. L'addestramento posteriore uniforme attribuisce uguale credito a tutti i campioni e può quindi mediare su dati conflittuali o a bassa attribuzione. Proponiamo il Posterior-Transition Reweighting (PTR), un metodo post-addestramento conservativo e privo di ricompensa che determina quanto ciascun campione di addestramento debba influenzare l'aggiornamento supervisionato. Per ogni campione, PTR codifica la conseguenza post-azione osservata come target latente, la inserisce in un pool candidato di target non corrispondenti e utilizza un valutatore di transizione separato per stimare una posteriori di identificazione softmax sugli indici target. Il rapporto posteriori-uniforme definisce il punteggio PTR, che viene convertito in un peso ritagliato e miscelato e applicato all'obiettivo azione originale tramite regressione ponderata auto-normalizzata. Questa costruzione non richiede una verosimiglianza della politica trattabile ed è compatibile sia con teste d'azione di diffusione che di flow-matching. Invece di fidarsi uniformemente di tutte le supervisioni registrate, PTR riassegna il credito in base a quanto attribuibile sia la conseguenza post-azione di ciascun campione sotto la rappresentazione corrente, migliorando l'adattamento offline conservativo a dati robotici eterogenei.

English

Offline post-training adapts a pretrained robot policy to a target dataset by supervised regression on recorded actions. In practice, robot datasets are heterogeneous: they mix embodiments, camera setups, and demonstrations of varying quality, so many trajectories reflect recovery behavior, inconsistent operator skill, or weakly informative supervision. Uniform post-training gives equal credit to all samples and can therefore average over conflicting or low-attribution data. We propose Posterior-Transition Reweighting (PTR), a reward-free and conservative post-training method that decides how much each training sample should influence the supervised update. For each sample, PTR encodes the observed post-action consequence as a latent target, inserts it into a candidate pool of mismatched targets, and uses a separate transition scorer to estimate a softmax identification posterior over target indices. The posterior-to-uniform ratio defines the PTR score, which is converted into a clipped-and-mixed weight and applied to the original action objective through self-normalized weighted regression. This construction requires no tractable policy likelihood and is compatible with both diffusion and flow-matching action heads. Rather than uniformly trusting all recorded supervision, PTR reallocates credit according to how attributable each sample's post-action consequence is under the current representation, improving conservative offline adaptation to heterogeneous robot data.

Apprendimento di Politiche Robotiche Conservative in Modalità Offline tramite Ripesatura delle Transizioni Posteriori

Conservative Offline Robot Policy Learning via Posterior-Transition Reweighting

Abstract

Support