ChatPaper.aiChatPaper

Aprendizaje de la dinámica de video-acción del mundo real con autoregresión enmascarada heterogénea

Learning Real-World Action-Video Dynamics with Heterogeneous Masked Autoregression

February 6, 2025
Autores: Lirui Wang, Kevin Zhao, Chaoqi Liu, Xinlei Chen
cs.AI

Resumen

Proponemos Autoregresión Enmascarada Heterogénea (HMA, por sus siglas en inglés) para modelar la dinámica de videos de acción con el fin de generar datos de alta calidad y evaluar el escalado del aprendizaje de robots. Construir modelos interactivos del mundo de video y políticas para robótica es difícil debido al desafío de manejar entornos diversos manteniendo la eficiencia computacional para funcionar en tiempo real. HMA utiliza pre-entrenamiento heterogéneo a partir de observaciones y secuencias de acción a través de diferentes encarnaciones robóticas, dominios y tareas. HMA emplea autoregresión enmascarada para generar tokens cuantificados o suaves para predicciones de video. HMA logra una mejor fidelidad visual y controlabilidad que los modelos anteriores de generación de video robótico con una velocidad 15 veces más rápida en el mundo real. Después del post-entrenamiento, este modelo puede ser utilizado como un simulador de video a partir de entradas de acción de bajo nivel para evaluar políticas y generar datos sintéticos. Consulte este enlace https://liruiw.github.io/hma para más información.
English
We propose Heterogeneous Masked Autoregression (HMA) for modeling action-video dynamics to generate high-quality data and evaluation in scaling robot learning. Building interactive video world models and policies for robotics is difficult due to the challenge of handling diverse settings while maintaining computational efficiency to run in real time. HMA uses heterogeneous pre-training from observations and action sequences across different robotic embodiments, domains, and tasks. HMA uses masked autoregression to generate quantized or soft tokens for video predictions. \ourshort achieves better visual fidelity and controllability than the previous robotic video generation models with 15 times faster speed in the real world. After post-training, this model can be used as a video simulator from low-level action inputs for evaluating policies and generating synthetic data. See this link https://liruiw.github.io/hma for more information.

Summary

AI-Generated Summary

PDF63February 7, 2025