ChatPaper.aiChatPaper

사후 전환 가중 재조정을 통한 보수적 오프라인 로봇 정책 학습

Conservative Offline Robot Policy Learning via Posterior-Transition Reweighting

March 17, 2026
저자: Wanpeng Zhang, Hao Luo, Sipeng Zheng, Yicheng Feng, Haiweng Xu, Ziheng Xi, Chaoyi Xu, Haoqi Yuan, Zongqing Lu
cs.AI

초록

오프라인 사후 훈련은 기록된 동작에 대한 지도 회귀를 통해 사전 훈련된 로봇 정책을 대상 데이터셋에 적응시킵니다. 실제로 로봇 데이터셋은 이질적입니다. 다양한 구현체, 카메라 설정, 품질이 다른 데모가 혼합되어 있어 많은 궤적이 복구 행동, 일관성 없는 조작자 숙련도 또는 약한 정보성을 지닌 지도를 반영합니다. 균일한 사후 훈련은 모든 샘플에 동일한 가중치를 부여하므로 상충되거나 낮은 귀속도의 데이터를 평균화할 수 있습니다. 본 논문에서는 각 훈련 샘플이 지도 업데이트에 얼마나 영향을 미칠지 결정하는 보상 무관 및 보수적 사후 훈련 방법인 Posterior-Transition Reweighting (PTR)을 제안합니다. PTR은 각 샘플에 대해 관찰된 행동 후 결과를 잠재 목표로 인코딩하고, 이를 불일치 목표 후보 풀에 삽입한 후, 별도의 전환 점수기를 사용하여 목표 인덱스에 대한 소프트맥스 식별 사후 확률을 추정합니다. 사후 확률과 균일 분포의 비율은 PTR 점수를 정의하며, 이는 클리핑 및 혼합 가중치로 변환되어 자기 정규화 가중 회귀를 통해 원래 동작 목적 함수에 적용됩니다. 이 구조는 다루기 쉬운 정책 가능도 함수를 요구하지 않으며 확산 및 흐름 정합 동작 헤드와 모두 호환됩니다. PTR은 기록된 모든 지도를 균일하게 신뢰하기보다, 현재 표현 하에서 각 샘플의 행동 후 결과가 얼마나 귀속 가능한지에 따라 가중치를 재분배하여 이질적 로봇 데이터에 대한 보수적인 오프라인 적응을 개선합니다.
English
Offline post-training adapts a pretrained robot policy to a target dataset by supervised regression on recorded actions. In practice, robot datasets are heterogeneous: they mix embodiments, camera setups, and demonstrations of varying quality, so many trajectories reflect recovery behavior, inconsistent operator skill, or weakly informative supervision. Uniform post-training gives equal credit to all samples and can therefore average over conflicting or low-attribution data. We propose Posterior-Transition Reweighting (PTR), a reward-free and conservative post-training method that decides how much each training sample should influence the supervised update. For each sample, PTR encodes the observed post-action consequence as a latent target, inserts it into a candidate pool of mismatched targets, and uses a separate transition scorer to estimate a softmax identification posterior over target indices. The posterior-to-uniform ratio defines the PTR score, which is converted into a clipped-and-mixed weight and applied to the original action objective through self-normalized weighted regression. This construction requires no tractable policy likelihood and is compatible with both diffusion and flow-matching action heads. Rather than uniformly trusting all recorded supervision, PTR reallocates credit according to how attributable each sample's post-action consequence is under the current representation, improving conservative offline adaptation to heterogeneous robot data.
PDF102March 20, 2026