Het leren van actievideo-dynamiek in de echte wereld met heterogene gemaskerde autoregressie.
Learning Real-World Action-Video Dynamics with Heterogeneous Masked Autoregression
February 6, 2025
Auteurs: Lirui Wang, Kevin Zhao, Chaoqi Liu, Xinlei Chen
cs.AI
Samenvatting
Wij stellen Heterogene Gemaskeerde Autoregressie (HMA) voor om de dynamiek van actievideo's te modelleren voor het genereren van hoogwaardige gegevens en evaluatie bij het schalen van robotleren. Het bouwen van interactieve videowereldmodellen en beleidslijnen voor robotica is moeilijk vanwege de uitdaging om diverse instellingen te hanteren terwijl de computationele efficiëntie behouden blijft om in realtime te draaien. HMA maakt gebruik van heterogene voorafgaande training van observaties en actiesequenties over verschillende robotachtige verschijningsvormen, domeinen en taken. HMA maakt gebruik van gemaskeerde autoregressie om gekwantiseerde of zachte tokens te genereren voor videovoorspellingen. HMA bereikt een betere visuele geloofwaardigheid en controleerbaarheid dan de vorige modellen voor het genereren van robotachtige video's, met een snelheid die 15 keer sneller is in de echte wereld. Na post-training kan dit model worden gebruikt als een videosimulator vanuit laag-niveau actie-invoer om beleidslijnen te evalueren en synthetische gegevens te genereren. Zie deze link https://liruiw.github.io/hma voor meer informatie.
English
We propose Heterogeneous Masked Autoregression (HMA) for modeling
action-video dynamics to generate high-quality data and evaluation in scaling
robot learning. Building interactive video world models and policies for
robotics is difficult due to the challenge of handling diverse settings while
maintaining computational efficiency to run in real time. HMA uses
heterogeneous pre-training from observations and action sequences across
different robotic embodiments, domains, and tasks. HMA uses masked
autoregression to generate quantized or soft tokens for video predictions.
\ourshort achieves better visual fidelity and controllability than the previous
robotic video generation models with 15 times faster speed in the real world.
After post-training, this model can be used as a video simulator from low-level
action inputs for evaluating policies and generating synthetic data. See this
link https://liruiw.github.io/hma for more information.Summary
AI-Generated Summary