Apprendimento di Politiche Robotiche Conservative in Modalità Offline tramite Ripesatura delle Transizioni Posteriori
Conservative Offline Robot Policy Learning via Posterior-Transition Reweighting
March 17, 2026
Autori: Wanpeng Zhang, Hao Luo, Sipeng Zheng, Yicheng Feng, Haiweng Xu, Ziheng Xi, Chaoyi Xu, Haoqi Yuan, Zongqing Lu
cs.AI
Abstract
L'adattamento offline post-addestramento modifica una politica robotica preaddestrata su un dataset target mediante regressione supervisionata sulle azioni registrate. In pratica, i dataset robotici sono eterogenei: mescolano embodiment, configurazioni di telecamere e dimostrazioni di qualità variabile, pertanto molte traiettorie riflettono comportamenti di recupero, abilità inconsistenti dell'operatore o supervisione scarsamente informativa. L'addestramento posteriore uniforme attribuisce uguale credito a tutti i campioni e può quindi mediare su dati conflittuali o a bassa attribuzione. Proponiamo il Posterior-Transition Reweighting (PTR), un metodo post-addestramento conservativo e privo di ricompensa che determina quanto ciascun campione di addestramento debba influenzare l'aggiornamento supervisionato. Per ogni campione, PTR codifica la conseguenza post-azione osservata come target latente, la inserisce in un pool candidato di target non corrispondenti e utilizza un valutatore di transizione separato per stimare una posteriori di identificazione softmax sugli indici target. Il rapporto posteriori-uniforme definisce il punteggio PTR, che viene convertito in un peso ritagliato e miscelato e applicato all'obiettivo azione originale tramite regressione ponderata auto-normalizzata. Questa costruzione non richiede una verosimiglianza della politica trattabile ed è compatibile sia con teste d'azione di diffusione che di flow-matching. Invece di fidarsi uniformemente di tutte le supervisioni registrate, PTR riassegna il credito in base a quanto attribuibile sia la conseguenza post-azione di ciascun campione sotto la rappresentazione corrente, migliorando l'adattamento offline conservativo a dati robotici eterogenei.
English
Offline post-training adapts a pretrained robot policy to a target dataset by supervised regression on recorded actions. In practice, robot datasets are heterogeneous: they mix embodiments, camera setups, and demonstrations of varying quality, so many trajectories reflect recovery behavior, inconsistent operator skill, or weakly informative supervision. Uniform post-training gives equal credit to all samples and can therefore average over conflicting or low-attribution data. We propose Posterior-Transition Reweighting (PTR), a reward-free and conservative post-training method that decides how much each training sample should influence the supervised update. For each sample, PTR encodes the observed post-action consequence as a latent target, inserts it into a candidate pool of mismatched targets, and uses a separate transition scorer to estimate a softmax identification posterior over target indices. The posterior-to-uniform ratio defines the PTR score, which is converted into a clipped-and-mixed weight and applied to the original action objective through self-normalized weighted regression. This construction requires no tractable policy likelihood and is compatible with both diffusion and flow-matching action heads. Rather than uniformly trusting all recorded supervision, PTR reallocates credit according to how attributable each sample's post-action consequence is under the current representation, improving conservative offline adaptation to heterogeneous robot data.