OpenVLA: Un Modello Open-Source Visione-Linguaggio-Azione

Abstract

I modelli di politiche su larga scala pre-addestrati su una combinazione di dati visione-linguaggio su scala Internet e dimostrazioni robotiche diversificate hanno il potenziale di cambiare il modo in cui insegniamo nuove abilità ai robot: invece di addestrare nuovi comportamenti da zero, possiamo ottimizzare tali modelli visione-linguaggio-azione (VLA) per ottenere politiche robuste e generalizzabili per il controllo visuomotorio. Tuttavia, l'adozione diffusa dei VLA nella robotica è stata impegnativa a causa di due fattori principali: 1) i VLA esistenti sono in gran parte chiusi e inaccessibili al pubblico, e 2) i lavori precedenti non hanno esplorato metodi per ottimizzare in modo efficiente i VLA per nuovi compiti, un componente chiave per l'adozione. Affrontando queste sfide, introduciamo OpenVLA, un VLA open-source da 7 miliardi di parametri addestrato su una raccolta diversificata di 970.000 dimostrazioni robotiche del mondo reale. OpenVLA si basa su un modello linguistico Llama 2 combinato con un encoder visivo che fonde caratteristiche pre-addestrate da DINOv2 e SigLIP. Grazie alla maggiore diversità dei dati e ai nuovi componenti del modello, OpenVLA dimostra risultati solidi per la manipolazione generalista, superando modelli chiusi come RT-2-X (55B) del 16,5% nel tasso di successo assoluto dei compiti su 29 attività e molteplici incarnazioni robotiche, con 7 volte meno parametri. Mostriamo inoltre che possiamo ottimizzare efficacemente OpenVLA per nuovi contesti, con risultati di generalizzazione particolarmente forti in ambienti multi-task che coinvolgono più oggetti e capacità avanzate di ancoraggio linguistico, superando metodi di apprendimento per imitazione da zero come Diffusion Policy del 20,4%. Esploriamo anche l'efficienza computazionale; come contributo separato, dimostriamo che OpenVLA può essere ottimizzato su GPU consumer tramite moderni metodi di adattamento a basso rango e servito in modo efficiente tramite quantizzazione senza compromettere il tasso di successo a valle. Infine, rilasciamo checkpoint del modello, notebook per l'ottimizzazione e il nostro codice PyTorch con supporto integrato per l'addestramento di VLA su larga scala sui dataset Open X-Embodiment.

English

Large policies pretrained on a combination of Internet-scale vision-language data and diverse robot demonstrations have the potential to change how we teach robots new skills: rather than training new behaviors from scratch, we can fine-tune such vision-language-action (VLA) models to obtain robust, generalizable policies for visuomotor control. Yet, widespread adoption of VLAs for robotics has been challenging as 1) existing VLAs are largely closed and inaccessible to the public, and 2) prior work fails to explore methods for efficiently fine-tuning VLAs for new tasks, a key component for adoption. Addressing these challenges, we introduce OpenVLA, a 7B-parameter open-source VLA trained on a diverse collection of 970k real-world robot demonstrations. OpenVLA builds on a Llama 2 language model combined with a visual encoder that fuses pretrained features from DINOv2 and SigLIP. As a product of the added data diversity and new model components, OpenVLA demonstrates strong results for generalist manipulation, outperforming closed models such as RT-2-X (55B) by 16.5% in absolute task success rate across 29 tasks and multiple robot embodiments, with 7x fewer parameters. We further show that we can effectively fine-tune OpenVLA for new settings, with especially strong generalization results in multi-task environments involving multiple objects and strong language grounding abilities, and outperform expressive from-scratch imitation learning methods such as Diffusion Policy by 20.4%. We also explore compute efficiency; as a separate contribution, we show that OpenVLA can be fine-tuned on consumer GPUs via modern low-rank adaptation methods and served efficiently via quantization without a hit to downstream success rate. Finally, we release model checkpoints, fine-tuning notebooks, and our PyTorch codebase with built-in support for training VLAs at scale on Open X-Embodiment datasets.

OpenVLA: Un Modello Open-Source Visione-Linguaggio-Azione

OpenVLA: An Open-Source Vision-Language-Action Model

Abstract

Support