Aprendizado Conservador de Políticas Robóticas Offline via Reponderação de Transições Posteriores

Resumo

A adaptação pós-treinamento offline ajusta uma política de robô pré-treinada a um conjunto de dados de destino por meio de regressão supervisionada nas ações registradas. Na prática, os conjuntos de dados robóticos são heterogéneos: misturam embodimentos, configurações de câmera e demonstrações de qualidade variável, de modo que muitas trajetórias refletem comportamentos de recuperação, habilidades inconsistentes do operador ou supervisão pouco informativa. O pós-treinamento uniforme concede crédito igual a todas as amostras e pode, portanto, fazer uma média sobre dados conflitantes ou de baixa atribuição. Propomos o Reponderamento de Transição Posterior (PTR), um método de pós-treinamento conservador e livre de recompensa que decide o quanto cada amostra de treino deve influenciar a atualização supervisionada. Para cada amostra, o PTR codifica a consequência pós-ação observada como um destino latente, insere-a num conjunto candidato de destinos incompatíveis e usa um classificador de transições separado para estimar um posterior de identificação softmax sobre os índices dos destinos. A razão posterior-para-uniforme define a pontuação PTR, que é convertida num peso recortado e misto e aplicada ao objetivo de ação original por meio de regressão ponderada auto-normalizada. Esta construção não requer uma verosimilhança de política tratável e é compatível com cabeças de ação baseadas em difusão e *flow-matching*. Em vez de confiar uniformemente em toda a supervisão registada, o PTR realoca o crédito de acordo com o quão atribuível é a consequência pós-ação de cada amostra sob a representação atual, melhorando a adaptação offline conservadora a dados robóticos heterogéneos.

English

Offline post-training adapts a pretrained robot policy to a target dataset by supervised regression on recorded actions. In practice, robot datasets are heterogeneous: they mix embodiments, camera setups, and demonstrations of varying quality, so many trajectories reflect recovery behavior, inconsistent operator skill, or weakly informative supervision. Uniform post-training gives equal credit to all samples and can therefore average over conflicting or low-attribution data. We propose Posterior-Transition Reweighting (PTR), a reward-free and conservative post-training method that decides how much each training sample should influence the supervised update. For each sample, PTR encodes the observed post-action consequence as a latent target, inserts it into a candidate pool of mismatched targets, and uses a separate transition scorer to estimate a softmax identification posterior over target indices. The posterior-to-uniform ratio defines the PTR score, which is converted into a clipped-and-mixed weight and applied to the original action objective through self-normalized weighted regression. This construction requires no tractable policy likelihood and is compatible with both diffusion and flow-matching action heads. Rather than uniformly trusting all recorded supervision, PTR reallocates credit according to how attributable each sample's post-action consequence is under the current representation, improving conservative offline adaptation to heterogeneous robot data.

Aprendizado Conservador de Políticas Robóticas Offline via Reponderação de Transições Posteriores

Conservative Offline Robot Policy Learning via Posterior-Transition Reweighting

Resumo

Support