Apprentissage de Politiques Robotiques Hors Ligne Conservateur par Repondération des Transitions Postérieures

Résumé

L'adaptation hors ligne post-entraînement ajuste une politique de robot pré-entraînée à un jeu de données cible par régression supervisée sur les actions enregistrées. En pratique, les jeux de données robotiques sont hétérogènes : ils mélangent des embodiements, des configurations de caméras et des démonstrations de qualité variable, de sorte que de nombreuses trajectoires reflètent un comportement de rattrapage, une compétence incohérente de l'opérateur ou une supervision peu informative. L'adaptation post-entraînement uniforme accorde un crédit égal à tous les échantillons et peut donc moyenner des données conflictuelles ou à faible attribution. Nous proposons le Repondération par Transition Postérieure (PTR), une méthode post-entraînement conservative et sans récompense qui détermine l'influence de chaque échantillon d'entraînement sur la mise à jour supervisée. Pour chaque échantillon, PTR encode la conséquence post-action observée comme une cible latente, l'insère dans un pool candidat de cibles non appariées, et utilise un évaluateur de transition séparé pour estimer une postérieure d'identification softmax sur les indices des cibles. Le ratio postérieure-uniforme définit le score PTR, qui est converti en un poids mixte et tronqué puis appliqué à l'objectif d'action original via une régression pondérée auto-normalisée. Cette construction ne nécessite pas de vraisemblance de politique tractable et est compatible avec les têtes d'action par diffusion et par appariement de flux. Plutôt que de faire uniformément confiance à toute la supervision enregistrée, PTR réalloue le crédit selon l'attribuabilité de la conséquence post-action de chaque échantillon sous la représentation actuelle, améliorant l'adaptation hors ligne conservative aux données robotiques hétérogènes.

English

Offline post-training adapts a pretrained robot policy to a target dataset by supervised regression on recorded actions. In practice, robot datasets are heterogeneous: they mix embodiments, camera setups, and demonstrations of varying quality, so many trajectories reflect recovery behavior, inconsistent operator skill, or weakly informative supervision. Uniform post-training gives equal credit to all samples and can therefore average over conflicting or low-attribution data. We propose Posterior-Transition Reweighting (PTR), a reward-free and conservative post-training method that decides how much each training sample should influence the supervised update. For each sample, PTR encodes the observed post-action consequence as a latent target, inserts it into a candidate pool of mismatched targets, and uses a separate transition scorer to estimate a softmax identification posterior over target indices. The posterior-to-uniform ratio defines the PTR score, which is converted into a clipped-and-mixed weight and applied to the original action objective through self-normalized weighted regression. This construction requires no tractable policy likelihood and is compatible with both diffusion and flow-matching action heads. Rather than uniformly trusting all recorded supervision, PTR reallocates credit according to how attributable each sample's post-action consequence is under the current representation, improving conservative offline adaptation to heterogeneous robot data.

Apprentissage de Politiques Robotiques Hors Ligne Conservateur par Repondération des Transitions Postérieures

Conservative Offline Robot Policy Learning via Posterior-Transition Reweighting

Résumé

Support