Aprendizaje de la dinámica de video-acción del mundo real con autoregresión enmascarada heterogénea
Learning Real-World Action-Video Dynamics with Heterogeneous Masked Autoregression
February 6, 2025
Autores: Lirui Wang, Kevin Zhao, Chaoqi Liu, Xinlei Chen
cs.AI
Resumen
Proponemos Autoregresión Enmascarada Heterogénea (HMA, por sus siglas en inglés) para modelar la dinámica de videos de acción con el fin de generar datos de alta calidad y evaluar el escalado del aprendizaje de robots. Construir modelos interactivos del mundo de video y políticas para robótica es difícil debido al desafío de manejar entornos diversos manteniendo la eficiencia computacional para funcionar en tiempo real. HMA utiliza pre-entrenamiento heterogéneo a partir de observaciones y secuencias de acción a través de diferentes encarnaciones robóticas, dominios y tareas. HMA emplea autoregresión enmascarada para generar tokens cuantificados o suaves para predicciones de video. HMA logra una mejor fidelidad visual y controlabilidad que los modelos anteriores de generación de video robótico con una velocidad 15 veces más rápida en el mundo real. Después del post-entrenamiento, este modelo puede ser utilizado como un simulador de video a partir de entradas de acción de bajo nivel para evaluar políticas y generar datos sintéticos. Consulte este enlace https://liruiw.github.io/hma para más información.
English
We propose Heterogeneous Masked Autoregression (HMA) for modeling
action-video dynamics to generate high-quality data and evaluation in scaling
robot learning. Building interactive video world models and policies for
robotics is difficult due to the challenge of handling diverse settings while
maintaining computational efficiency to run in real time. HMA uses
heterogeneous pre-training from observations and action sequences across
different robotic embodiments, domains, and tasks. HMA uses masked
autoregression to generate quantized or soft tokens for video predictions.
\ourshort achieves better visual fidelity and controllability than the previous
robotic video generation models with 15 times faster speed in the real world.
After post-training, this model can be used as a video simulator from low-level
action inputs for evaluating policies and generating synthetic data. See this
link https://liruiw.github.io/hma for more information.Summary
AI-Generated Summary