ChatPaper.aiChatPaper

Het leren van actievideo-dynamiek in de echte wereld met heterogene gemaskerde autoregressie.

Learning Real-World Action-Video Dynamics with Heterogeneous Masked Autoregression

February 6, 2025
Auteurs: Lirui Wang, Kevin Zhao, Chaoqi Liu, Xinlei Chen
cs.AI

Samenvatting

Wij stellen Heterogene Gemaskeerde Autoregressie (HMA) voor om de dynamiek van actievideo's te modelleren voor het genereren van hoogwaardige gegevens en evaluatie bij het schalen van robotleren. Het bouwen van interactieve videowereldmodellen en beleidslijnen voor robotica is moeilijk vanwege de uitdaging om diverse instellingen te hanteren terwijl de computationele efficiëntie behouden blijft om in realtime te draaien. HMA maakt gebruik van heterogene voorafgaande training van observaties en actiesequenties over verschillende robotachtige verschijningsvormen, domeinen en taken. HMA maakt gebruik van gemaskeerde autoregressie om gekwantiseerde of zachte tokens te genereren voor videovoorspellingen. HMA bereikt een betere visuele geloofwaardigheid en controleerbaarheid dan de vorige modellen voor het genereren van robotachtige video's, met een snelheid die 15 keer sneller is in de echte wereld. Na post-training kan dit model worden gebruikt als een videosimulator vanuit laag-niveau actie-invoer om beleidslijnen te evalueren en synthetische gegevens te genereren. Zie deze link https://liruiw.github.io/hma voor meer informatie.
English
We propose Heterogeneous Masked Autoregression (HMA) for modeling action-video dynamics to generate high-quality data and evaluation in scaling robot learning. Building interactive video world models and policies for robotics is difficult due to the challenge of handling diverse settings while maintaining computational efficiency to run in real time. HMA uses heterogeneous pre-training from observations and action sequences across different robotic embodiments, domains, and tasks. HMA uses masked autoregression to generate quantized or soft tokens for video predictions. \ourshort achieves better visual fidelity and controllability than the previous robotic video generation models with 15 times faster speed in the real world. After post-training, this model can be used as a video simulator from low-level action inputs for evaluating policies and generating synthetic data. See this link https://liruiw.github.io/hma for more information.

Summary

AI-Generated Summary

PDF63February 7, 2025