Título: Token de Movimiento Latente como Lenguaje Puente para la Manipulación de Robots
Moto: Latent Motion Token as the Bridging Language for Robot Manipulation
December 5, 2024
Autores: Yi Chen, Yuying Ge, Yizhuo Li, Yixiao Ge, Mingyu Ding, Ying Shan, Xihui Liu
cs.AI
Resumen
Los recientes avances en Grandes Modelos de Lenguaje pre-entrenados en extensos corpus han demostrado un éxito significativo en diversas tareas de procesamiento de lenguaje natural con mínima afinación. Este éxito ofrece una nueva promesa para la robótica, la cual ha estado durante mucho tiempo limitada por el alto costo de los datos etiquetados de acciones. Nos preguntamos: dado el abundante video data que contiene conocimiento relacionado con la interacción disponible como un rico "corpus", ¿puede un enfoque similar de pre-entrenamiento generativo ser aplicado de manera efectiva para mejorar el aprendizaje de robots? El desafío clave es identificar una representación efectiva para el pre-entrenamiento autoregresivo que beneficie las tareas de manipulación de robots. Inspirados por la forma en que los humanos aprenden nuevas habilidades observando entornos dinámicos, proponemos que el aprendizaje robótico efectivo debería enfatizar el conocimiento relacionado con el movimiento, el cual está estrechamente ligado a acciones de bajo nivel y es independiente del hardware, facilitando la transferencia de movimientos aprendidos a acciones reales de robots. Con este fin, presentamos Moto, que convierte el contenido de video en secuencias latentes de Tokens de Movimiento mediante un Tokenizador de Movimiento Latente, aprendiendo un "lenguaje" de puente de movimiento a partir de videos de manera no supervisada. Pre-entrenamos Moto-GPT a través de autoregresión de tokens de movimiento, permitiéndole capturar diversos conocimientos visuales de movimiento. Después del pre-entrenamiento, Moto-GPT demuestra la prometedora capacidad de producir tokens de movimiento semánticamente interpretables, predecir trayectorias de movimiento plausibles y evaluar la racionalidad de la trayectoria a través de la probabilidad de salida. Para transferir los conocimientos previos de movimiento a acciones reales de robots, implementamos una estrategia de co-afinación que une de manera fluida la predicción de tokens de movimiento latentes y el control real de robots. Experimentos extensos muestran que el Moto-GPT afinado exhibe una robustez y eficiencia superiores en referentes de manipulación de robots, subrayando su efectividad en la transferencia de conocimientos desde datos de video a tareas de manipulación visual posteriores.
English
Recent developments in Large Language Models pre-trained on extensive corpora
have shown significant success in various natural language processing tasks
with minimal fine-tuning. This success offers new promise for robotics, which
has long been constrained by the high cost of action-labeled data. We ask:
given the abundant video data containing interaction-related knowledge
available as a rich "corpus", can a similar generative pre-training approach be
effectively applied to enhance robot learning? The key challenge is to identify
an effective representation for autoregressive pre-training that benefits robot
manipulation tasks. Inspired by the way humans learn new skills through
observing dynamic environments, we propose that effective robotic learning
should emphasize motion-related knowledge, which is closely tied to low-level
actions and is hardware-agnostic, facilitating the transfer of learned motions
to actual robot actions. To this end, we introduce Moto, which converts video
content into latent Motion Token sequences by a Latent Motion Tokenizer,
learning a bridging "language" of motion from videos in an unsupervised manner.
We pre-train Moto-GPT through motion token autoregression, enabling it to
capture diverse visual motion knowledge. After pre-training, Moto-GPT
demonstrates the promising ability to produce semantically interpretable motion
tokens, predict plausible motion trajectories, and assess trajectory
rationality through output likelihood. To transfer learned motion priors to
real robot actions, we implement a co-fine-tuning strategy that seamlessly
bridges latent motion token prediction and real robot control. Extensive
experiments show that the fine-tuned Moto-GPT exhibits superior robustness and
efficiency on robot manipulation benchmarks, underscoring its effectiveness in
transferring knowledge from video data to downstream visual manipulation tasks.Summary
AI-Generated Summary