ChatPaper.aiChatPaper

Aprendizado Conservador de Políticas Robóticas Offline via Reponderação de Transições Posteriores

Conservative Offline Robot Policy Learning via Posterior-Transition Reweighting

March 17, 2026
Autores: Wanpeng Zhang, Hao Luo, Sipeng Zheng, Yicheng Feng, Haiweng Xu, Ziheng Xi, Chaoyi Xu, Haoqi Yuan, Zongqing Lu
cs.AI

Resumo

A adaptação pós-treinamento offline ajusta uma política de robô pré-treinada a um conjunto de dados de destino por meio de regressão supervisionada nas ações registradas. Na prática, os conjuntos de dados robóticos são heterogéneos: misturam embodimentos, configurações de câmera e demonstrações de qualidade variável, de modo que muitas trajetórias refletem comportamentos de recuperação, habilidades inconsistentes do operador ou supervisão pouco informativa. O pós-treinamento uniforme concede crédito igual a todas as amostras e pode, portanto, fazer uma média sobre dados conflitantes ou de baixa atribuição. Propomos o Reponderamento de Transição Posterior (PTR), um método de pós-treinamento conservador e livre de recompensa que decide o quanto cada amostra de treino deve influenciar a atualização supervisionada. Para cada amostra, o PTR codifica a consequência pós-ação observada como um destino latente, insere-a num conjunto candidato de destinos incompatíveis e usa um classificador de transições separado para estimar um posterior de identificação softmax sobre os índices dos destinos. A razão posterior-para-uniforme define a pontuação PTR, que é convertida num peso recortado e misto e aplicada ao objetivo de ação original por meio de regressão ponderada auto-normalizada. Esta construção não requer uma verosimilhança de política tratável e é compatível com cabeças de ação baseadas em difusão e *flow-matching*. Em vez de confiar uniformemente em toda a supervisão registada, o PTR realoca o crédito de acordo com o quão atribuível é a consequência pós-ação de cada amostra sob a representação atual, melhorando a adaptação offline conservadora a dados robóticos heterogéneos.
English
Offline post-training adapts a pretrained robot policy to a target dataset by supervised regression on recorded actions. In practice, robot datasets are heterogeneous: they mix embodiments, camera setups, and demonstrations of varying quality, so many trajectories reflect recovery behavior, inconsistent operator skill, or weakly informative supervision. Uniform post-training gives equal credit to all samples and can therefore average over conflicting or low-attribution data. We propose Posterior-Transition Reweighting (PTR), a reward-free and conservative post-training method that decides how much each training sample should influence the supervised update. For each sample, PTR encodes the observed post-action consequence as a latent target, inserts it into a candidate pool of mismatched targets, and uses a separate transition scorer to estimate a softmax identification posterior over target indices. The posterior-to-uniform ratio defines the PTR score, which is converted into a clipped-and-mixed weight and applied to the original action objective through self-normalized weighted regression. This construction requires no tractable policy likelihood and is compatible with both diffusion and flow-matching action heads. Rather than uniformly trusting all recorded supervision, PTR reallocates credit according to how attributable each sample's post-action consequence is under the current representation, improving conservative offline adaptation to heterogeneous robot data.
PDF102March 21, 2026