Conservatief Offline Robotbeleid Leren via Posterior-Transitie Herweging
Conservative Offline Robot Policy Learning via Posterior-Transition Reweighting
March 17, 2026
Auteurs: Wanpeng Zhang, Hao Luo, Sipeng Zheng, Yicheng Feng, Haiweng Xu, Ziheng Xi, Chaoyi Xu, Haoqi Yuan, Zongqing Lu
cs.AI
Samenvatting
Offline post-training past een vooraf getrainde robotpolicy aan op een doeldataset door middel van supervised regressie op opgenomen acties. In de praktijk zijn robotdatasets heterogeen: ze mengen verschillende embodimenten, cameraopstellingen en demonstraties van uiteenlopende kwaliteit, waardoor veel trajecten herstelgedrag, inconsistente operatorvaardigheden of zwak informatieve supervisie weerspiegelen. Uniforme post-training kent gelijke waarde toe aan alle samples en kan daardoor middelen over conflicterende of laag-toegekende data. Wij stellen Posterior-Transition Reweighting (PTR) voor, een beloningsvrije en conservatieve post-trainingsmethode die bepaalt hoeveel invloed elke trainingssample zou moeten hebben op de supervised update. Voor elke sample codeert PTR het waargenomen post-actie-gevolg als een latent doel, voegt het toe aan een kandidaatpool van niet-overeenkomende doelen, en gebruikt een aparte transitionscorer om een softmax-identificatieposterior over de doelindices te schatten. De posterior-to-uniform-ratio definieert de PTR-score, die wordt omgezet in een geknipt-en-gemengd gewicht en wordt toegepast op het originele actiedoel via genormaliseerde gewogen regressie. Deze constructie vereist geen behandelbare policylikelihood en is compatibel met zowel diffusie- als flow-matching actiekoppen. In plaats van uniform alle opgenomen supervisie te vertrouwen, herverdeelt PTR de waarde volgens de mate waarin het post-actie-gevolg van elke sample toerekenbaar is onder de huidige representatie, wat conservatieve offline aanpassing aan heterogene robotdata verbetert.
English
Offline post-training adapts a pretrained robot policy to a target dataset by supervised regression on recorded actions. In practice, robot datasets are heterogeneous: they mix embodiments, camera setups, and demonstrations of varying quality, so many trajectories reflect recovery behavior, inconsistent operator skill, or weakly informative supervision. Uniform post-training gives equal credit to all samples and can therefore average over conflicting or low-attribution data. We propose Posterior-Transition Reweighting (PTR), a reward-free and conservative post-training method that decides how much each training sample should influence the supervised update. For each sample, PTR encodes the observed post-action consequence as a latent target, inserts it into a candidate pool of mismatched targets, and uses a separate transition scorer to estimate a softmax identification posterior over target indices. The posterior-to-uniform ratio defines the PTR score, which is converted into a clipped-and-mixed weight and applied to the original action objective through self-normalized weighted regression. This construction requires no tractable policy likelihood and is compatible with both diffusion and flow-matching action heads. Rather than uniformly trusting all recorded supervision, PTR reallocates credit according to how attributable each sample's post-action consequence is under the current representation, improving conservative offline adaptation to heterogeneous robot data.