Aprendizaje de Políticas Robóticas Conservadoras fuera de Línea mediante Reponderación de Transiciones Posteriores

Resumen

La adaptación fuera de línea posterior al entrenamiento ajusta una política de robot preentrenada a un conjunto de datos objetivo mediante regresión supervisada sobre las acciones registradas. En la práctica, los conjuntos de datos de robots son heterogéneos: mezclan embodimientos, configuraciones de cámaras y demostraciones de calidad variable, por lo que muchas trayectorias reflejan comportamientos de recuperación, habilidad inconsistente del operador o supervisión débilmente informativa. El post-entrenamiento uniforme otorga el mismo crédito a todas las muestras y, por lo tanto, puede promediar datos conflictivos o de baja atribución. Proponemos el Reponderación por Transición Posterior (PTR, por sus siglas en inglés), un método de post-entrenamiento conservador y libre de recompensas que decide cuánto debe influir cada muestra de entrenamiento en la actualización supervisada. Para cada muestra, PTR codifica la consecuencia post-acción observada como un objetivo latente, la inserta en un grupo candidato de objetivos no coincidentes y utiliza un evaluador de transiciones separado para estimar un posterior de identificación softmax sobre los índices objetivo. La relación posterior-a-uniforme define la puntuación PTR, que se convierte en un peso recortado y mezclado y se aplica al objetivo de acción original mediante regresión ponderada auto-normalizada. Esta construcción no requiere una verosimilitud de política tratable y es compatible tanto con cabezales de acción de difusión como de coincidencia de flujos. En lugar de confiar uniformemente en toda la supervisión registrada, PTR reasigna el crédito según cuán atribuible sea la consecuencia post-acción de cada muestra bajo la representación actual, mejorando la adaptación conservadora fuera de línea a datos de robots heterogéneos.

English

Offline post-training adapts a pretrained robot policy to a target dataset by supervised regression on recorded actions. In practice, robot datasets are heterogeneous: they mix embodiments, camera setups, and demonstrations of varying quality, so many trajectories reflect recovery behavior, inconsistent operator skill, or weakly informative supervision. Uniform post-training gives equal credit to all samples and can therefore average over conflicting or low-attribution data. We propose Posterior-Transition Reweighting (PTR), a reward-free and conservative post-training method that decides how much each training sample should influence the supervised update. For each sample, PTR encodes the observed post-action consequence as a latent target, inserts it into a candidate pool of mismatched targets, and uses a separate transition scorer to estimate a softmax identification posterior over target indices. The posterior-to-uniform ratio defines the PTR score, which is converted into a clipped-and-mixed weight and applied to the original action objective through self-normalized weighted regression. This construction requires no tractable policy likelihood and is compatible with both diffusion and flow-matching action heads. Rather than uniformly trusting all recorded supervision, PTR reallocates credit according to how attributable each sample's post-action consequence is under the current representation, improving conservative offline adaptation to heterogeneous robot data.

Aprendizaje de Políticas Robóticas Conservadoras fuera de Línea mediante Reponderación de Transiciones Posteriores

Conservative Offline Robot Policy Learning via Posterior-Transition Reweighting

Resumen

Support