Apprendimento delle dinamiche dei video d'azione del mondo reale con l'autoregressione mascherata eterogenea
Learning Real-World Action-Video Dynamics with Heterogeneous Masked Autoregression
February 6, 2025
Autori: Lirui Wang, Kevin Zhao, Chaoqi Liu, Xinlei Chen
cs.AI
Abstract
Proponiamo l'Autoregressione Mascherata Eterogenea (HMA) per modellare la dinamica dei video d'azione al fine di generare dati di alta qualità e valutare la scalabilità dell'apprendimento dei robot. Costruire modelli di mondi video interattivi e politiche per la robotica è difficile a causa della sfida di gestire contesti diversi pur mantenendo l'efficienza computazionale per funzionare in tempo reale. HMA utilizza un pre-addestramento eterogeneo da osservazioni e sequenze d'azione attraverso differenti incarnazioni robotiche, domini e compiti. HMA utilizza l'autoregressione mascherata per generare token quantizzati o soft per le previsioni video. \ourshort ottiene una migliore fedeltà visiva e controllabilità rispetto ai modelli precedenti di generazione video robotica con una velocità 15 volte superiore nel mondo reale. Dopo il post-addestramento, questo modello può essere utilizzato come simulatore video da input d'azione a basso livello per valutare politiche e generare dati sintetici. Per ulteriori informazioni, consultare questo link: https://liruiw.github.io/hma.
English
We propose Heterogeneous Masked Autoregression (HMA) for modeling
action-video dynamics to generate high-quality data and evaluation in scaling
robot learning. Building interactive video world models and policies for
robotics is difficult due to the challenge of handling diverse settings while
maintaining computational efficiency to run in real time. HMA uses
heterogeneous pre-training from observations and action sequences across
different robotic embodiments, domains, and tasks. HMA uses masked
autoregression to generate quantized or soft tokens for video predictions.
\ourshort achieves better visual fidelity and controllability than the previous
robotic video generation models with 15 times faster speed in the real world.
After post-training, this model can be used as a video simulator from low-level
action inputs for evaluating policies and generating synthetic data. See this
link https://liruiw.github.io/hma for more information.Summary
AI-Generated Summary