ChatPaper.aiChatPaper

Titel: Latentes Bewegungstoken als verbindende Sprache für die Roboter-Manipulation

Moto: Latent Motion Token as the Bridging Language for Robot Manipulation

December 5, 2024
Autoren: Yi Chen, Yuying Ge, Yizhuo Li, Yixiao Ge, Mingyu Ding, Ying Shan, Xihui Liu
cs.AI

Zusammenfassung

Neueste Entwicklungen bei großen Sprachmodellen, die auf umfangreichen Korpora vortrainiert sind, haben signifikante Erfolge in verschiedenen natürlichsprachlichen Verarbeitungsaufgaben mit minimalem Feintuning gezeigt. Dieser Erfolg bietet neue Möglichkeiten für die Robotik, die lange Zeit durch die hohe Kosten von aktionsbeschrifteten Daten eingeschränkt war. Wir fragen: Angesichts der reichhaltigen Videodaten mit interaktionsbezogenem Wissen als umfangreiches "Korpus", kann ein ähnlicher generativer Vortrainingsansatz effektiv angewendet werden, um das Roboterlernen zu verbessern? Die Hauptherausforderung besteht darin, eine effektive Repräsentation für autoregressives Vortraining zu identifizieren, die den Roboter-Manipulationsaufgaben zugutekommt. Inspiriert von der Art und Weise, wie Menschen neue Fähigkeiten durch Beobachtung dynamischer Umgebungen erlernen, schlagen wir vor, dass effektives robotisches Lernen das wissensbezogene Bewegungen betonen sollte, die eng mit niedrigstufigen Aktionen verbunden sind und hardwareunabhängig sind, was den Transfer gelernter Bewegungen auf tatsächliche Roboteraktionen erleichtert. Zu diesem Zweck stellen wir Moto vor, das den Videoinhalt in latente Bewegungstokenfolgen durch einen Latent Motion Tokenizer umwandelt, der auf unsupervised Weise eine vermittelnde "Sprache" der Bewegung aus Videos lernt. Wir trainieren Moto-GPT durch autoregressive Bewegungstokenvortraining vor, was es ermöglicht, vielfältiges visuelles Bewegungswissen zu erfassen. Nach dem Vortraining zeigt Moto-GPT die vielversprechende Fähigkeit, semantisch interpretierbare Bewegungstoken zu erzeugen, plausible Bewegungsbahnen vorherzusagen und die Rationalität von Bahnen durch die Ausgabewahrscheinlichkeit zu bewerten. Um gelernte Bewegungsprioritäten auf reale Roboteraktionen zu übertragen, implementieren wir eine Co-Feintuning-Strategie, die die Vorhersage latenter Bewegungstoken nahtlos mit der Steuerung des realen Roboters verbindet. Umfangreiche Experimente zeigen, dass das feinabgestimmte Moto-GPT eine überlegene Robustheit und Effizienz bei Roboter-Manipulations-Benchmarks aufweist und damit seine Wirksamkeit bei der Übertragung von Wissen aus Videodaten auf nachgelagerte visuelle Manipulationsaufgaben unterstreicht.
English
Recent developments in Large Language Models pre-trained on extensive corpora have shown significant success in various natural language processing tasks with minimal fine-tuning. This success offers new promise for robotics, which has long been constrained by the high cost of action-labeled data. We ask: given the abundant video data containing interaction-related knowledge available as a rich "corpus", can a similar generative pre-training approach be effectively applied to enhance robot learning? The key challenge is to identify an effective representation for autoregressive pre-training that benefits robot manipulation tasks. Inspired by the way humans learn new skills through observing dynamic environments, we propose that effective robotic learning should emphasize motion-related knowledge, which is closely tied to low-level actions and is hardware-agnostic, facilitating the transfer of learned motions to actual robot actions. To this end, we introduce Moto, which converts video content into latent Motion Token sequences by a Latent Motion Tokenizer, learning a bridging "language" of motion from videos in an unsupervised manner. We pre-train Moto-GPT through motion token autoregression, enabling it to capture diverse visual motion knowledge. After pre-training, Moto-GPT demonstrates the promising ability to produce semantically interpretable motion tokens, predict plausible motion trajectories, and assess trajectory rationality through output likelihood. To transfer learned motion priors to real robot actions, we implement a co-fine-tuning strategy that seamlessly bridges latent motion token prediction and real robot control. Extensive experiments show that the fine-tuned Moto-GPT exhibits superior robustness and efficiency on robot manipulation benchmarks, underscoring its effectiveness in transferring knowledge from video data to downstream visual manipulation tasks.

Summary

AI-Generated Summary

PDF232December 9, 2024