ChatPaper.aiChatPaper

Apprendimento delle dinamiche dei video d'azione del mondo reale con l'autoregressione mascherata eterogenea

Learning Real-World Action-Video Dynamics with Heterogeneous Masked Autoregression

February 6, 2025
Autori: Lirui Wang, Kevin Zhao, Chaoqi Liu, Xinlei Chen
cs.AI

Abstract

Proponiamo l'Autoregressione Mascherata Eterogenea (HMA) per modellare la dinamica dei video d'azione al fine di generare dati di alta qualità e valutare la scalabilità dell'apprendimento dei robot. Costruire modelli di mondi video interattivi e politiche per la robotica è difficile a causa della sfida di gestire contesti diversi pur mantenendo l'efficienza computazionale per funzionare in tempo reale. HMA utilizza un pre-addestramento eterogeneo da osservazioni e sequenze d'azione attraverso differenti incarnazioni robotiche, domini e compiti. HMA utilizza l'autoregressione mascherata per generare token quantizzati o soft per le previsioni video. \ourshort ottiene una migliore fedeltà visiva e controllabilità rispetto ai modelli precedenti di generazione video robotica con una velocità 15 volte superiore nel mondo reale. Dopo il post-addestramento, questo modello può essere utilizzato come simulatore video da input d'azione a basso livello per valutare politiche e generare dati sintetici. Per ulteriori informazioni, consultare questo link: https://liruiw.github.io/hma.
English
We propose Heterogeneous Masked Autoregression (HMA) for modeling action-video dynamics to generate high-quality data and evaluation in scaling robot learning. Building interactive video world models and policies for robotics is difficult due to the challenge of handling diverse settings while maintaining computational efficiency to run in real time. HMA uses heterogeneous pre-training from observations and action sequences across different robotic embodiments, domains, and tasks. HMA uses masked autoregression to generate quantized or soft tokens for video predictions. \ourshort achieves better visual fidelity and controllability than the previous robotic video generation models with 15 times faster speed in the real world. After post-training, this model can be used as a video simulator from low-level action inputs for evaluating policies and generating synthetic data. See this link https://liruiw.github.io/hma for more information.

Summary

AI-Generated Summary

PDF63February 7, 2025