ChatPaper.aiChatPaper

Titel: Latente Bewegingstoken als Verbindende Taal voor Robotmanipulatie

Moto: Latent Motion Token as the Bridging Language for Robot Manipulation

December 5, 2024
Auteurs: Yi Chen, Yuying Ge, Yizhuo Li, Yixiao Ge, Mingyu Ding, Ying Shan, Xihui Liu
cs.AI

Samenvatting

Recente ontwikkelingen in Grote Taalmodellen die vooraf zijn getraind op uitgebreide corpora hebben aanzienlijk succes laten zien in verschillende natuurlijke taalverwerkingstaken met minimaal fijnafstemming. Dit succes biedt nieuwe belofte voor robotica, die lange tijd beperkt is geweest door de hoge kosten van actie-gelabelde gegevens. We vragen ons af: gezien de overvloed aan videogegevens met interactiegerelateerde kennis die beschikbaar is als een rijk "corpus", kan een vergelijkbare generatieve vooraf trainingsbenadering effectief worden toegepast om robotleren te verbeteren? De belangrijkste uitdaging is om een effectieve representatie te identificeren voor autoregressieve vooraf training die ten goede komt aan robot manipulatietaken. Geïnspireerd door de manier waarop mensen nieuwe vaardigheden leren door dynamische omgevingen te observeren, stellen we dat effectief robotleren de nadruk moet leggen op bewegingsgerelateerde kennis, die nauw verbonden is met laag-niveau acties en hardware-agnostisch is, waardoor de overdracht van geleerde bewegingen naar daadwerkelijke robotacties wordt vergemakkelijkt. Met dit doel introduceren we Moto, die videomateriaal omzet in latente Bewegingstokenreeksen door een Latente Bewegingstokenizer, waarbij een verbindende "taal" van beweging wordt geleerd uit video's op een onbewaakte manier. We trainen Moto-GPT voor met behulp van bewegingstoken-autoregressie, waardoor het diverse visuele bewegingskennis kan vastleggen. Na de vooraf training toont Moto-GPT veelbelovende mogelijkheden om semantisch interpreteerbare bewegingstokens te produceren, plausibele bewegingstrajecten te voorspellen en traject rationaliteit te beoordelen via outputwaarschijnlijkheid. Om geleerde bewegingsprioriteiten over te dragen naar echte robotacties, implementeren we een co-fijnafstemmingsstrategie die naadloos latente bewegingstokenvoorspelling en daadwerkelijke robotbesturing verbindt. Uitgebreide experimenten tonen aan dat de fijnafgestemde Moto-GPT superieure robuustheid en efficiëntie vertoont op robot manipulatie-benchmarks, waarbij de effectiviteit ervan wordt benadrukt bij het overdragen van kennis van videogegevens naar downstream visuele manipulatietaken.
English
Recent developments in Large Language Models pre-trained on extensive corpora have shown significant success in various natural language processing tasks with minimal fine-tuning. This success offers new promise for robotics, which has long been constrained by the high cost of action-labeled data. We ask: given the abundant video data containing interaction-related knowledge available as a rich "corpus", can a similar generative pre-training approach be effectively applied to enhance robot learning? The key challenge is to identify an effective representation for autoregressive pre-training that benefits robot manipulation tasks. Inspired by the way humans learn new skills through observing dynamic environments, we propose that effective robotic learning should emphasize motion-related knowledge, which is closely tied to low-level actions and is hardware-agnostic, facilitating the transfer of learned motions to actual robot actions. To this end, we introduce Moto, which converts video content into latent Motion Token sequences by a Latent Motion Tokenizer, learning a bridging "language" of motion from videos in an unsupervised manner. We pre-train Moto-GPT through motion token autoregression, enabling it to capture diverse visual motion knowledge. After pre-training, Moto-GPT demonstrates the promising ability to produce semantically interpretable motion tokens, predict plausible motion trajectories, and assess trajectory rationality through output likelihood. To transfer learned motion priors to real robot actions, we implement a co-fine-tuning strategy that seamlessly bridges latent motion token prediction and real robot control. Extensive experiments show that the fine-tuned Moto-GPT exhibits superior robustness and efficiency on robot manipulation benchmarks, underscoring its effectiveness in transferring knowledge from video data to downstream visual manipulation tasks.
PDF232December 9, 2024