Título: Token de Movimiento Latente como Lenguaje Puente para la Manipulación de Robots

Resumen

Los recientes avances en Grandes Modelos de Lenguaje pre-entrenados en extensos corpus han demostrado un éxito significativo en diversas tareas de procesamiento de lenguaje natural con mínima afinación. Este éxito ofrece una nueva promesa para la robótica, la cual ha estado durante mucho tiempo limitada por el alto costo de los datos etiquetados de acciones. Nos preguntamos: dado el abundante video data que contiene conocimiento relacionado con la interacción disponible como un rico "corpus", ¿puede un enfoque similar de pre-entrenamiento generativo ser aplicado de manera efectiva para mejorar el aprendizaje de robots? El desafío clave es identificar una representación efectiva para el pre-entrenamiento autoregresivo que beneficie las tareas de manipulación de robots. Inspirados por la forma en que los humanos aprenden nuevas habilidades observando entornos dinámicos, proponemos que el aprendizaje robótico efectivo debería enfatizar el conocimiento relacionado con el movimiento, el cual está estrechamente ligado a acciones de bajo nivel y es independiente del hardware, facilitando la transferencia de movimientos aprendidos a acciones reales de robots. Con este fin, presentamos Moto, que convierte el contenido de video en secuencias latentes de Tokens de Movimiento mediante un Tokenizador de Movimiento Latente, aprendiendo un "lenguaje" de puente de movimiento a partir de videos de manera no supervisada. Pre-entrenamos Moto-GPT a través de autoregresión de tokens de movimiento, permitiéndole capturar diversos conocimientos visuales de movimiento. Después del pre-entrenamiento, Moto-GPT demuestra la prometedora capacidad de producir tokens de movimiento semánticamente interpretables, predecir trayectorias de movimiento plausibles y evaluar la racionalidad de la trayectoria a través de la probabilidad de salida. Para transferir los conocimientos previos de movimiento a acciones reales de robots, implementamos una estrategia de co-afinación que une de manera fluida la predicción de tokens de movimiento latentes y el control real de robots. Experimentos extensos muestran que el Moto-GPT afinado exhibe una robustez y eficiencia superiores en referentes de manipulación de robots, subrayando su efectividad en la transferencia de conocimientos desde datos de video a tareas de manipulación visual posteriores.

English

Recent developments in Large Language Models pre-trained on extensive corpora have shown significant success in various natural language processing tasks with minimal fine-tuning. This success offers new promise for robotics, which has long been constrained by the high cost of action-labeled data. We ask: given the abundant video data containing interaction-related knowledge available as a rich "corpus", can a similar generative pre-training approach be effectively applied to enhance robot learning? The key challenge is to identify an effective representation for autoregressive pre-training that benefits robot manipulation tasks. Inspired by the way humans learn new skills through observing dynamic environments, we propose that effective robotic learning should emphasize motion-related knowledge, which is closely tied to low-level actions and is hardware-agnostic, facilitating the transfer of learned motions to actual robot actions. To this end, we introduce Moto, which converts video content into latent Motion Token sequences by a Latent Motion Tokenizer, learning a bridging "language" of motion from videos in an unsupervised manner. We pre-train Moto-GPT through motion token autoregression, enabling it to capture diverse visual motion knowledge. After pre-training, Moto-GPT demonstrates the promising ability to produce semantically interpretable motion tokens, predict plausible motion trajectories, and assess trajectory rationality through output likelihood. To transfer learned motion priors to real robot actions, we implement a co-fine-tuning strategy that seamlessly bridges latent motion token prediction and real robot control. Extensive experiments show that the fine-tuned Moto-GPT exhibits superior robustness and efficiency on robot manipulation benchmarks, underscoring its effectiveness in transferring knowledge from video data to downstream visual manipulation tasks.

Título: Token de Movimiento Latente como Lenguaje Puente para la Manipulación de Robots

Moto: Latent Motion Token as the Bridging Language for Robot Manipulation

Resumen

Support