Título: Token de Movimento Latente como Linguagem de Ligação para Manipulação de Robôs

Resumo

Os recentes avanços em Modelos de Linguagem Grandes pré-treinados em corpora extensos têm demonstrado um sucesso significativo em várias tarefas de processamento de linguagem natural com ajustes mínimos. Esse sucesso oferece uma nova promessa para a robótica, que há muito tempo tem sido limitada pelo alto custo de dados rotulados de ação. Perguntamos: dado os abundantes dados de vídeo contendo conhecimento relacionado à interação disponível como um "corpus" rico, pode uma abordagem de pré-treinamento generativo semelhante ser aplicada de forma eficaz para aprimorar a aprendizagem de robôs? O desafio chave é identificar uma representação eficaz para o pré-treinamento autoregressivo que beneficie tarefas de manipulação de robôs. Inspirados na forma como os humanos aprendem novas habilidades observando ambientes dinâmicos, propomos que a aprendizagem robótica eficaz deve enfatizar o conhecimento relacionado ao movimento, que está intimamente ligado a ações de baixo nível e é independente de hardware, facilitando a transferência de movimentos aprendidos para ações reais de robôs. Para isso, introduzimos o Moto, que converte conteúdo de vídeo em sequências latentes de Tokens de Movimento por meio de um Tokenizador de Movimento Latente, aprendendo uma "linguagem" de movimento intermediária a partir de vídeos de forma não supervisionada. Pré-treinamos o Moto-GPT por meio de autoregressão de tokens de movimento, possibilitando que ele capture conhecimento visual de movimento diverso. Após o pré-treinamento, o Moto-GPT demonstra a capacidade promissora de produzir tokens de movimento semanticamente interpretáveis, prever trajetórias de movimento plausíveis e avaliar a racionalidade das trajetórias por meio da probabilidade de saída. Para transferir os conhecimentos prévios de movimento para ações reais de robôs, implementamos uma estratégia de co-ajuste fino que conecta de forma contínua a previsão de tokens de movimento latentes e o controle real do robô. Experimentos extensos mostram que o Moto-GPT ajustado exibe uma robustez e eficiência superiores em benchmarks de manipulação de robôs, destacando sua eficácia na transferência de conhecimento de dados de vídeo para tarefas de manipulação visual subsequentes.

English

Recent developments in Large Language Models pre-trained on extensive corpora have shown significant success in various natural language processing tasks with minimal fine-tuning. This success offers new promise for robotics, which has long been constrained by the high cost of action-labeled data. We ask: given the abundant video data containing interaction-related knowledge available as a rich "corpus", can a similar generative pre-training approach be effectively applied to enhance robot learning? The key challenge is to identify an effective representation for autoregressive pre-training that benefits robot manipulation tasks. Inspired by the way humans learn new skills through observing dynamic environments, we propose that effective robotic learning should emphasize motion-related knowledge, which is closely tied to low-level actions and is hardware-agnostic, facilitating the transfer of learned motions to actual robot actions. To this end, we introduce Moto, which converts video content into latent Motion Token sequences by a Latent Motion Tokenizer, learning a bridging "language" of motion from videos in an unsupervised manner. We pre-train Moto-GPT through motion token autoregression, enabling it to capture diverse visual motion knowledge. After pre-training, Moto-GPT demonstrates the promising ability to produce semantically interpretable motion tokens, predict plausible motion trajectories, and assess trajectory rationality through output likelihood. To transfer learned motion priors to real robot actions, we implement a co-fine-tuning strategy that seamlessly bridges latent motion token prediction and real robot control. Extensive experiments show that the fine-tuned Moto-GPT exhibits superior robustness and efficiency on robot manipulation benchmarks, underscoring its effectiveness in transferring knowledge from video data to downstream visual manipulation tasks.

Título: Token de Movimento Latente como Linguagem de Ligação para Manipulação de Robôs

Moto: Latent Motion Token as the Bridging Language for Robot Manipulation

Resumo

Support