Titel: Latente Bewegingstoken als Verbindende Taal voor Robotmanipulatie
Moto: Latent Motion Token as the Bridging Language for Robot Manipulation
December 5, 2024
Auteurs: Yi Chen, Yuying Ge, Yizhuo Li, Yixiao Ge, Mingyu Ding, Ying Shan, Xihui Liu
cs.AI
Samenvatting
Recente ontwikkelingen in Grote Taalmodellen die vooraf zijn getraind op uitgebreide corpora hebben aanzienlijk succes laten zien in verschillende natuurlijke taalverwerkingstaken met minimaal fijnafstemming. Dit succes biedt nieuwe belofte voor robotica, die lange tijd beperkt is geweest door de hoge kosten van actie-gelabelde gegevens. We vragen ons af: gezien de overvloed aan videogegevens met interactiegerelateerde kennis die beschikbaar is als een rijk "corpus", kan een vergelijkbare generatieve vooraf trainingsbenadering effectief worden toegepast om robotleren te verbeteren? De belangrijkste uitdaging is om een effectieve representatie te identificeren voor autoregressieve vooraf training die ten goede komt aan robot manipulatietaken. Geïnspireerd door de manier waarop mensen nieuwe vaardigheden leren door dynamische omgevingen te observeren, stellen we dat effectief robotleren de nadruk moet leggen op bewegingsgerelateerde kennis, die nauw verbonden is met laag-niveau acties en hardware-agnostisch is, waardoor de overdracht van geleerde bewegingen naar daadwerkelijke robotacties wordt vergemakkelijkt. Met dit doel introduceren we Moto, die videomateriaal omzet in latente Bewegingstokenreeksen door een Latente Bewegingstokenizer, waarbij een verbindende "taal" van beweging wordt geleerd uit video's op een onbewaakte manier. We trainen Moto-GPT voor met behulp van bewegingstoken-autoregressie, waardoor het diverse visuele bewegingskennis kan vastleggen. Na de vooraf training toont Moto-GPT veelbelovende mogelijkheden om semantisch interpreteerbare bewegingstokens te produceren, plausibele bewegingstrajecten te voorspellen en traject rationaliteit te beoordelen via outputwaarschijnlijkheid. Om geleerde bewegingsprioriteiten over te dragen naar echte robotacties, implementeren we een co-fijnafstemmingsstrategie die naadloos latente bewegingstokenvoorspelling en daadwerkelijke robotbesturing verbindt. Uitgebreide experimenten tonen aan dat de fijnafgestemde Moto-GPT superieure robuustheid en efficiëntie vertoont op robot manipulatie-benchmarks, waarbij de effectiviteit ervan wordt benadrukt bij het overdragen van kennis van videogegevens naar downstream visuele manipulatietaken.
English
Recent developments in Large Language Models pre-trained on extensive corpora
have shown significant success in various natural language processing tasks
with minimal fine-tuning. This success offers new promise for robotics, which
has long been constrained by the high cost of action-labeled data. We ask:
given the abundant video data containing interaction-related knowledge
available as a rich "corpus", can a similar generative pre-training approach be
effectively applied to enhance robot learning? The key challenge is to identify
an effective representation for autoregressive pre-training that benefits robot
manipulation tasks. Inspired by the way humans learn new skills through
observing dynamic environments, we propose that effective robotic learning
should emphasize motion-related knowledge, which is closely tied to low-level
actions and is hardware-agnostic, facilitating the transfer of learned motions
to actual robot actions. To this end, we introduce Moto, which converts video
content into latent Motion Token sequences by a Latent Motion Tokenizer,
learning a bridging "language" of motion from videos in an unsupervised manner.
We pre-train Moto-GPT through motion token autoregression, enabling it to
capture diverse visual motion knowledge. After pre-training, Moto-GPT
demonstrates the promising ability to produce semantically interpretable motion
tokens, predict plausible motion trajectories, and assess trajectory
rationality through output likelihood. To transfer learned motion priors to
real robot actions, we implement a co-fine-tuning strategy that seamlessly
bridges latent motion token prediction and real robot control. Extensive
experiments show that the fine-tuned Moto-GPT exhibits superior robustness and
efficiency on robot manipulation benchmarks, underscoring its effectiveness in
transferring knowledge from video data to downstream visual manipulation tasks.