Консервативное обучение политик роботов на офлайн-данных с помощью перевзвешивания апостериорных переходов

Аннотация

Офлайн-послеобучение адаптирует предварительно обученную политику робота к целевому набору данных с помощью регрессии с учителем по записанным действиям. На практике наборы данных роботов неоднородны: они смешивают конструкции роботов, настройки камер и демонстрации разного качества, поэтому многие траектории отражают корректирующее поведение, непостоянный навык оператора или слабо информативный контроль. Равномерное послеобучение придает всем образцам одинаковый вес и, следовательно, может усреднять противоречивые или малопризначные данные. Мы предлагаем взвешивание по апостериорному переходу (Posterior-Transition Reweighting, PTR) — беспризовый и консервативный метод послеобучения, который определяет, насколько каждый обучающий образец должен влиять на обновление с учителем. Для каждого образца PTR кодирует наблюдаемое последствие после действия как латентную цель, вставляет её в кандидатский пул несовпадающих целей и использует отдельную модель оценки переходов для вычисления апостериорной вероятности идентификации softmax по индексам целей. Отношение апостериорной вероятности к равномерному распределению определяет PTR-оценку, которая преобразуется в ограниченно-смешанный вес и применяется к исходной целевой функции действий через самонормируемую взвешенную регрессию. Эта конструкция не требует вычислимой функции правдоподобия политики и совместима как с диффузионными, так и с методами согласования потоков для моделирования действий. Вместо равномерного доверия ко всей записанной информации управления PTR перераспределяет вес в зависимости от того, насколько attributable (объяснимо) последствие после действия каждого образца в рамках текущего представления, улучшая консервативную офлайн-адаптацию к неоднородным данным роботов.

English

Offline post-training adapts a pretrained robot policy to a target dataset by supervised regression on recorded actions. In practice, robot datasets are heterogeneous: they mix embodiments, camera setups, and demonstrations of varying quality, so many trajectories reflect recovery behavior, inconsistent operator skill, or weakly informative supervision. Uniform post-training gives equal credit to all samples and can therefore average over conflicting or low-attribution data. We propose Posterior-Transition Reweighting (PTR), a reward-free and conservative post-training method that decides how much each training sample should influence the supervised update. For each sample, PTR encodes the observed post-action consequence as a latent target, inserts it into a candidate pool of mismatched targets, and uses a separate transition scorer to estimate a softmax identification posterior over target indices. The posterior-to-uniform ratio defines the PTR score, which is converted into a clipped-and-mixed weight and applied to the original action objective through self-normalized weighted regression. This construction requires no tractable policy likelihood and is compatible with both diffusion and flow-matching action heads. Rather than uniformly trusting all recorded supervision, PTR reallocates credit according to how attributable each sample's post-action consequence is under the current representation, improving conservative offline adaptation to heterogeneous robot data.

Консервативное обучение политик роботов на офлайн-данных с помощью перевзвешивания апостериорных переходов

Conservative Offline Robot Policy Learning via Posterior-Transition Reweighting

Аннотация

Support