In-Context Imitatie Leren via Volgende-Token Voorspelling
In-Context Imitation Learning via Next-Token Prediction
August 28, 2024
Auteurs: Letian Fu, Huang Huang, Gaurav Datta, Lawrence Yunliang Chen, William Chung-Ho Panitch, Fangchen Liu, Hui Li, Ken Goldberg
cs.AI
Samenvatting
We onderzoeken hoe voorspellingsmodellen voor de volgende token kunnen worden verbeterd om in-context imitatieleren uit te voeren op een echte robot, waarbij de robot nieuwe taken uitvoert door contextuele informatie te interpreteren die tijdens de invoerfase wordt verstrekt, zonder de onderliggende beleidsparameters bij te werken. We stellen de In-Context Robot Transformer (ICRT) voor, een causale transformer die autoregressieve voorspellingen uitvoert op sensomotorische trajecten zonder te vertrouwen op linguïstische data of een beloningsfunctie. Deze formulering maakt flexibele en trainingsvrije uitvoering van nieuwe taken mogelijk tijdens de testfase, bereikt door het model te voorzien van sensomotorische trajecten van de nieuwe taak, bestaande uit beeldobservaties, acties en statetupels, verzameld via menselijke teleoperatie. Experimenten met een Franka Emika robot tonen aan dat de ICRT zich kan aanpassen aan nieuwe taken die door prompts worden gespecificeerd, zelfs in omgevingsconfiguraties die verschillen van zowel de prompt als de trainingsdata. In een multitask-omgevingsopstelling presteert ICRT aanzienlijk beter dan de huidige state-of-the-art voorspellingsmodellen voor de volgende token in robotica bij het generaliseren naar onbekende taken. Code, checkpoints en data zijn beschikbaar op https://icrt.dev/
English
We explore how to enhance next-token prediction models to perform in-context
imitation learning on a real robot, where the robot executes new tasks by
interpreting contextual information provided during the input phase, without
updating its underlying policy parameters. We propose In-Context Robot
Transformer (ICRT), a causal transformer that performs autoregressive
prediction on sensorimotor trajectories without relying on any linguistic data
or reward function. This formulation enables flexible and training-free
execution of new tasks at test time, achieved by prompting the model with
sensorimotor trajectories of the new task composing of image observations,
actions and states tuples, collected through human teleoperation. Experiments
with a Franka Emika robot demonstrate that the ICRT can adapt to new tasks
specified by prompts, even in environment configurations that differ from both
the prompt and the training data. In a multitask environment setup, ICRT
significantly outperforms current state-of-the-art next-token prediction models
in robotics on generalizing to unseen tasks. Code, checkpoints and data are
available on https://icrt.dev/Summary
AI-Generated Summary