事後遷移再重み付けによる保守的オフラインロボット政策学習
Conservative Offline Robot Policy Learning via Posterior-Transition Reweighting
March 17, 2026
著者: Wanpeng Zhang, Hao Luo, Sipeng Zheng, Yicheng Feng, Haiweng Xu, Ziheng Xi, Chaoyi Xu, Haoqi Yuan, Zongqing Lu
cs.AI
要旨
オフライン事後学習は、記録された行動に対する教師あり回帰によって、事前学習されたロボット方策を対象データセットに適応させる手法である。実際には、ロボットデータセットは不均一であり、様々な実装形態、カメラ設定、質の異なる実証データが混在している。そのため、多くの軌道は回復行動、一貫性のないオペレータ技能、あるいは情報量の少ない教師信号を反映している。均一な事後学習は全てのサンプルに等しい信頼性を与えるため、矛盾したデータや寄与度の低いデータに対して平均化が行われることになる。本研究では、Posterior-Transition Reweighting (PTR) を提案する。これは報酬を必要とせず、保守的な事後学習法であり、各訓練サンプルが教師あり更新にどの程度影響を与えるべきかを決定する。PTRは各サンプルについて、観測された行動後の結果を潜在ターゲットとして符号化し、不一致ターゲットの候補プールに挿入し、別途用意された状態遷移評価器を用いてターゲットインデックスに対するソフトマックス識別事後確率を推定する。一様分布に対する事後確率の比がPTRスコアを定義し、これはクリップおよび混合された重みに変換され、自己正規化重み付き回帰を通じて元の行動目的関数に適用される。この構造は扱いやすい方策の尤度を必要とせず、拡散モデルおよびフローマッチングの両方の行動ヘッドと互換性がある。PTRは、記録された全ての教師信号を均一に信頼するのではなく、各サンプルの行動後の結果が現在の表現においてどの程度帰属可能かに基づいて信頼性を再分配し、不均一なロボットデータへの保守的オフライン適応を改善する。
English
Offline post-training adapts a pretrained robot policy to a target dataset by supervised regression on recorded actions. In practice, robot datasets are heterogeneous: they mix embodiments, camera setups, and demonstrations of varying quality, so many trajectories reflect recovery behavior, inconsistent operator skill, or weakly informative supervision. Uniform post-training gives equal credit to all samples and can therefore average over conflicting or low-attribution data. We propose Posterior-Transition Reweighting (PTR), a reward-free and conservative post-training method that decides how much each training sample should influence the supervised update. For each sample, PTR encodes the observed post-action consequence as a latent target, inserts it into a candidate pool of mismatched targets, and uses a separate transition scorer to estimate a softmax identification posterior over target indices. The posterior-to-uniform ratio defines the PTR score, which is converted into a clipped-and-mixed weight and applied to the original action objective through self-normalized weighted regression. This construction requires no tractable policy likelihood and is compatible with both diffusion and flow-matching action heads. Rather than uniformly trusting all recorded supervision, PTR reallocates credit according to how attributable each sample's post-action consequence is under the current representation, improving conservative offline adaptation to heterogeneous robot data.