ChatPaper.aiChatPaper

In-Context Imitatie Leren via Volgende-Token Voorspelling

In-Context Imitation Learning via Next-Token Prediction

August 28, 2024
Auteurs: Letian Fu, Huang Huang, Gaurav Datta, Lawrence Yunliang Chen, William Chung-Ho Panitch, Fangchen Liu, Hui Li, Ken Goldberg
cs.AI

Samenvatting

We onderzoeken hoe voorspellingsmodellen voor de volgende token kunnen worden verbeterd om in-context imitatieleren uit te voeren op een echte robot, waarbij de robot nieuwe taken uitvoert door contextuele informatie te interpreteren die tijdens de invoerfase wordt verstrekt, zonder de onderliggende beleidsparameters bij te werken. We stellen de In-Context Robot Transformer (ICRT) voor, een causale transformer die autoregressieve voorspellingen uitvoert op sensomotorische trajecten zonder te vertrouwen op linguïstische data of een beloningsfunctie. Deze formulering maakt flexibele en trainingsvrije uitvoering van nieuwe taken mogelijk tijdens de testfase, bereikt door het model te voorzien van sensomotorische trajecten van de nieuwe taak, bestaande uit beeldobservaties, acties en statetupels, verzameld via menselijke teleoperatie. Experimenten met een Franka Emika robot tonen aan dat de ICRT zich kan aanpassen aan nieuwe taken die door prompts worden gespecificeerd, zelfs in omgevingsconfiguraties die verschillen van zowel de prompt als de trainingsdata. In een multitask-omgevingsopstelling presteert ICRT aanzienlijk beter dan de huidige state-of-the-art voorspellingsmodellen voor de volgende token in robotica bij het generaliseren naar onbekende taken. Code, checkpoints en data zijn beschikbaar op https://icrt.dev/
English
We explore how to enhance next-token prediction models to perform in-context imitation learning on a real robot, where the robot executes new tasks by interpreting contextual information provided during the input phase, without updating its underlying policy parameters. We propose In-Context Robot Transformer (ICRT), a causal transformer that performs autoregressive prediction on sensorimotor trajectories without relying on any linguistic data or reward function. This formulation enables flexible and training-free execution of new tasks at test time, achieved by prompting the model with sensorimotor trajectories of the new task composing of image observations, actions and states tuples, collected through human teleoperation. Experiments with a Franka Emika robot demonstrate that the ICRT can adapt to new tasks specified by prompts, even in environment configurations that differ from both the prompt and the training data. In a multitask environment setup, ICRT significantly outperforms current state-of-the-art next-token prediction models in robotics on generalizing to unseen tasks. Code, checkpoints and data are available on https://icrt.dev/

Summary

AI-Generated Summary

PDF103November 16, 2024