Konservatives Offline-Roboter-Policy-Lernen durch Posterior-Transitions-Gewichtung

Zusammenfassung

Offline-Post-Training passt eine vortrainierte Roboterpolitik durch überwachte Regression auf aufgezeichnete Aktionen an einen Zieldatensatz an. In der Praxis sind Roboterdatensätze heterogen: Sie vermischen verschiedene Embodiments, Kamerakonfigurationen und Demonstrationen unterschiedlicher Qualität, sodass viele Trajektorien Korrekturverhalten, inkonsistente Fähigkeiten des Operators oder schwach informative Supervision widerspiegeln. Uniformes Post-Training misst allen Stichproben den gleichen Einfluss bei und kann daher über widersprüchliche oder datenarme Stichproben mitteln. Wir schlagen Posterior-Transition Reweighting (PTR) vor, eine belohnungsfreie und konservative Post-Training-Methode, die entscheidet, wie stark jede Trainingsstichprobe die überwachte Aktualisierung beeinflussen soll. Für jede Stichprobe kodiert PTR die beobachtete Folge nach der Aktion als latentes Ziel, fügt sie in einen Kandidatenpool nicht übereinstimmender Ziele ein und verwendet einen separaten Transitionsbewerter, um ein softmax-Identifikationsposterior über die Zielindizes zu schätzen. Das Posterior-zu-Uniform-Verhältnis definiert den PTR-Score, der in ein beschnittenes und gemischtes Gewicht umgewandelt und durch selbstnormalisierte gewichtete Regression auf das ursprüngliche Aktionsziel angewendet wird. Diese Konstruktion erfordert keine handhabbare Politiklokelihood und ist sowohl mit Diffusions- als auch mit Flow-Matching-Aktionsköpfen kompatibel. Anstatt allen aufgezeichneten Supervisionen blind zu vertrauen, verteilt PTR den Einfluss neu, basierend darauf, wie stark die Folge nach der Aktion jeder Stichprobe unter der aktuellen Repräsentation zurechenbar ist, und verbessert so die konservative Offline-Anpassung an heterogene Roboterdaten.

English

Offline post-training adapts a pretrained robot policy to a target dataset by supervised regression on recorded actions. In practice, robot datasets are heterogeneous: they mix embodiments, camera setups, and demonstrations of varying quality, so many trajectories reflect recovery behavior, inconsistent operator skill, or weakly informative supervision. Uniform post-training gives equal credit to all samples and can therefore average over conflicting or low-attribution data. We propose Posterior-Transition Reweighting (PTR), a reward-free and conservative post-training method that decides how much each training sample should influence the supervised update. For each sample, PTR encodes the observed post-action consequence as a latent target, inserts it into a candidate pool of mismatched targets, and uses a separate transition scorer to estimate a softmax identification posterior over target indices. The posterior-to-uniform ratio defines the PTR score, which is converted into a clipped-and-mixed weight and applied to the original action objective through self-normalized weighted regression. This construction requires no tractable policy likelihood and is compatible with both diffusion and flow-matching action heads. Rather than uniformly trusting all recorded supervision, PTR reallocates credit according to how attributable each sample's post-action consequence is under the current representation, improving conservative offline adaptation to heterogeneous robot data.

Konservatives Offline-Roboter-Policy-Lernen durch Posterior-Transitions-Gewichtung

Conservative Offline Robot Policy Learning via Posterior-Transition Reweighting

Zusammenfassung

Support