Título: Token de Movimento Latente como Linguagem de Ligação para Manipulação de Robôs
Moto: Latent Motion Token as the Bridging Language for Robot Manipulation
December 5, 2024
Autores: Yi Chen, Yuying Ge, Yizhuo Li, Yixiao Ge, Mingyu Ding, Ying Shan, Xihui Liu
cs.AI
Resumo
Os recentes avanços em Modelos de Linguagem Grandes pré-treinados em corpora extensos têm demonstrado um sucesso significativo em várias tarefas de processamento de linguagem natural com ajustes mínimos. Esse sucesso oferece uma nova promessa para a robótica, que há muito tempo tem sido limitada pelo alto custo de dados rotulados de ação. Perguntamos: dado os abundantes dados de vídeo contendo conhecimento relacionado à interação disponível como um "corpus" rico, pode uma abordagem de pré-treinamento generativo semelhante ser aplicada de forma eficaz para aprimorar a aprendizagem de robôs? O desafio chave é identificar uma representação eficaz para o pré-treinamento autoregressivo que beneficie tarefas de manipulação de robôs. Inspirados na forma como os humanos aprendem novas habilidades observando ambientes dinâmicos, propomos que a aprendizagem robótica eficaz deve enfatizar o conhecimento relacionado ao movimento, que está intimamente ligado a ações de baixo nível e é independente de hardware, facilitando a transferência de movimentos aprendidos para ações reais de robôs. Para isso, introduzimos o Moto, que converte conteúdo de vídeo em sequências latentes de Tokens de Movimento por meio de um Tokenizador de Movimento Latente, aprendendo uma "linguagem" de movimento intermediária a partir de vídeos de forma não supervisionada. Pré-treinamos o Moto-GPT por meio de autoregressão de tokens de movimento, possibilitando que ele capture conhecimento visual de movimento diverso. Após o pré-treinamento, o Moto-GPT demonstra a capacidade promissora de produzir tokens de movimento semanticamente interpretáveis, prever trajetórias de movimento plausíveis e avaliar a racionalidade das trajetórias por meio da probabilidade de saída. Para transferir os conhecimentos prévios de movimento para ações reais de robôs, implementamos uma estratégia de co-ajuste fino que conecta de forma contínua a previsão de tokens de movimento latentes e o controle real do robô. Experimentos extensos mostram que o Moto-GPT ajustado exibe uma robustez e eficiência superiores em benchmarks de manipulação de robôs, destacando sua eficácia na transferência de conhecimento de dados de vídeo para tarefas de manipulação visual subsequentes.
English
Recent developments in Large Language Models pre-trained on extensive corpora
have shown significant success in various natural language processing tasks
with minimal fine-tuning. This success offers new promise for robotics, which
has long been constrained by the high cost of action-labeled data. We ask:
given the abundant video data containing interaction-related knowledge
available as a rich "corpus", can a similar generative pre-training approach be
effectively applied to enhance robot learning? The key challenge is to identify
an effective representation for autoregressive pre-training that benefits robot
manipulation tasks. Inspired by the way humans learn new skills through
observing dynamic environments, we propose that effective robotic learning
should emphasize motion-related knowledge, which is closely tied to low-level
actions and is hardware-agnostic, facilitating the transfer of learned motions
to actual robot actions. To this end, we introduce Moto, which converts video
content into latent Motion Token sequences by a Latent Motion Tokenizer,
learning a bridging "language" of motion from videos in an unsupervised manner.
We pre-train Moto-GPT through motion token autoregression, enabling it to
capture diverse visual motion knowledge. After pre-training, Moto-GPT
demonstrates the promising ability to produce semantically interpretable motion
tokens, predict plausible motion trajectories, and assess trajectory
rationality through output likelihood. To transfer learned motion priors to
real robot actions, we implement a co-fine-tuning strategy that seamlessly
bridges latent motion token prediction and real robot control. Extensive
experiments show that the fine-tuned Moto-GPT exhibits superior robustness and
efficiency on robot manipulation benchmarks, underscoring its effectiveness in
transferring knowledge from video data to downstream visual manipulation tasks.Summary
AI-Generated Summary