ChatPaper.aiChatPaper

Octo: Een Open-Source Algemeen Robotbeleid

Octo: An Open-Source Generalist Robot Policy

May 20, 2024
Auteurs: Octo Model Team, Dibya Ghosh, Homer Walke, Karl Pertsch, Kevin Black, Oier Mees, Sudeep Dasari, Joey Hejna, Tobias Kreiman, Charles Xu, Jianlan Luo, You Liang Tan, Pannag Sanketi, Quan Vuong, Ted Xiao, Dorsa Sadigh, Chelsea Finn, Sergey Levine
cs.AI

Samenvatting

Grote beleidsmodellen die vooraf zijn getraind op diverse robotdatasets hebben het potentieel om robotleren te transformeren: in plaats van nieuwe beleidsmodellen vanaf nul te trainen, kunnen dergelijke generalistische robotbeleidsmodellen worden gefinetuned met slechts een kleine hoeveelheid domeinspecifieke data, terwijl ze toch breed generaliseren. Om echter breed toepasbaar te zijn in een reeks robotleerscenario's, omgevingen en taken, moeten dergelijke beleidsmodellen omgaan met diverse sensoren en actieruimten, een verscheidenheid aan veelgebruikte robotplatforms accommoderen, en zich gemakkelijk en efficiënt kunnen finetunen naar nieuwe domeinen. In dit werk streven we ernaar de basis te leggen voor de ontwikkeling van open-source, breed toepasbare, generalistische beleidsmodellen voor robotmanipulatie. Als eerste stap introduceren we Octo, een groot transformer-gebaseerd beleidsmodel getraind op 800k trajecten uit de Open X-Embodiment dataset, de grootste robotmanipulatiedataset tot nu toe. Het kan worden aangestuurd via taalcommando's of doelafbeeldingen en kan effectief worden gefinetuned naar robotopstellingen met nieuwe sensorische inputs en actieruimten binnen enkele uren op standaard consumenten-GPU's. In experimenten over 9 robotplatforms demonstreren we dat Octo dient als een veelzijdige beleidsinitialisatie die effectief kan worden gefinetuned naar nieuwe observatie- en actieruimten. We voeren ook gedetailleerde ablatie-onderzoeken uit naar ontwerpbeslissingen voor het Octo-model, van architectuur tot trainingsdata, om toekomstig onderzoek naar het bouwen van generalistische robotmodellen te begeleiden.
English
Large policies pretrained on diverse robot datasets have the potential to transform robotic learning: instead of training new policies from scratch, such generalist robot policies may be finetuned with only a little in-domain data, yet generalize broadly. However, to be widely applicable across a range of robotic learning scenarios, environments, and tasks, such policies need to handle diverse sensors and action spaces, accommodate a variety of commonly used robotic platforms, and finetune readily and efficiently to new domains. In this work, we aim to lay the groundwork for developing open-source, widely applicable, generalist policies for robotic manipulation. As a first step, we introduce Octo, a large transformer-based policy trained on 800k trajectories from the Open X-Embodiment dataset, the largest robot manipulation dataset to date. It can be instructed via language commands or goal images and can be effectively finetuned to robot setups with new sensory inputs and action spaces within a few hours on standard consumer GPUs. In experiments across 9 robotic platforms, we demonstrate that Octo serves as a versatile policy initialization that can be effectively finetuned to new observation and action spaces. We also perform detailed ablations of design decisions for the Octo model, from architecture to training data, to guide future research on building generalist robot models.
PDF291January 24, 2026