OpenVLA: Un Modello Open-Source Visione-Linguaggio-Azione
OpenVLA: An Open-Source Vision-Language-Action Model
June 13, 2024
Autori: Moo Jin Kim, Karl Pertsch, Siddharth Karamcheti, Ted Xiao, Ashwin Balakrishna, Suraj Nair, Rafael Rafailov, Ethan Foster, Grace Lam, Pannag Sanketi, Quan Vuong, Thomas Kollar, Benjamin Burchfiel, Russ Tedrake, Dorsa Sadigh, Sergey Levine, Percy Liang, Chelsea Finn
cs.AI
Abstract
I modelli di politiche su larga scala pre-addestrati su una combinazione di dati visione-linguaggio su scala Internet e dimostrazioni robotiche diversificate hanno il potenziale di cambiare il modo in cui insegniamo nuove abilità ai robot: invece di addestrare nuovi comportamenti da zero, possiamo ottimizzare tali modelli visione-linguaggio-azione (VLA) per ottenere politiche robuste e generalizzabili per il controllo visuomotorio. Tuttavia, l'adozione diffusa dei VLA nella robotica è stata impegnativa a causa di due fattori principali: 1) i VLA esistenti sono in gran parte chiusi e inaccessibili al pubblico, e 2) i lavori precedenti non hanno esplorato metodi per ottimizzare in modo efficiente i VLA per nuovi compiti, un componente chiave per l'adozione. Affrontando queste sfide, introduciamo OpenVLA, un VLA open-source da 7 miliardi di parametri addestrato su una raccolta diversificata di 970.000 dimostrazioni robotiche del mondo reale. OpenVLA si basa su un modello linguistico Llama 2 combinato con un encoder visivo che fonde caratteristiche pre-addestrate da DINOv2 e SigLIP. Grazie alla maggiore diversità dei dati e ai nuovi componenti del modello, OpenVLA dimostra risultati solidi per la manipolazione generalista, superando modelli chiusi come RT-2-X (55B) del 16,5% nel tasso di successo assoluto dei compiti su 29 attività e molteplici incarnazioni robotiche, con 7 volte meno parametri. Mostriamo inoltre che possiamo ottimizzare efficacemente OpenVLA per nuovi contesti, con risultati di generalizzazione particolarmente forti in ambienti multi-task che coinvolgono più oggetti e capacità avanzate di ancoraggio linguistico, superando metodi di apprendimento per imitazione da zero come Diffusion Policy del 20,4%. Esploriamo anche l'efficienza computazionale; come contributo separato, dimostriamo che OpenVLA può essere ottimizzato su GPU consumer tramite moderni metodi di adattamento a basso rango e servito in modo efficiente tramite quantizzazione senza compromettere il tasso di successo a valle. Infine, rilasciamo checkpoint del modello, notebook per l'ottimizzazione e il nostro codice PyTorch con supporto integrato per l'addestramento di VLA su larga scala sui dataset Open X-Embodiment.
English
Large policies pretrained on a combination of Internet-scale vision-language
data and diverse robot demonstrations have the potential to change how we teach
robots new skills: rather than training new behaviors from scratch, we can
fine-tune such vision-language-action (VLA) models to obtain robust,
generalizable policies for visuomotor control. Yet, widespread adoption of VLAs
for robotics has been challenging as 1) existing VLAs are largely closed and
inaccessible to the public, and 2) prior work fails to explore methods for
efficiently fine-tuning VLAs for new tasks, a key component for adoption.
Addressing these challenges, we introduce OpenVLA, a 7B-parameter open-source
VLA trained on a diverse collection of 970k real-world robot demonstrations.
OpenVLA builds on a Llama 2 language model combined with a visual encoder that
fuses pretrained features from DINOv2 and SigLIP. As a product of the added
data diversity and new model components, OpenVLA demonstrates strong results
for generalist manipulation, outperforming closed models such as RT-2-X (55B)
by 16.5% in absolute task success rate across 29 tasks and multiple robot
embodiments, with 7x fewer parameters. We further show that we can effectively
fine-tune OpenVLA for new settings, with especially strong generalization
results in multi-task environments involving multiple objects and strong
language grounding abilities, and outperform expressive from-scratch imitation
learning methods such as Diffusion Policy by 20.4%. We also explore compute
efficiency; as a separate contribution, we show that OpenVLA can be fine-tuned
on consumer GPUs via modern low-rank adaptation methods and served efficiently
via quantization without a hit to downstream success rate. Finally, we release
model checkpoints, fine-tuning notebooks, and our PyTorch codebase with
built-in support for training VLAs at scale on Open X-Embodiment datasets.