Een pragmatisch VLA-fundamentmodel

Samenvatting

Een veelbelovend Vision-Language-Action (VLA)-foundationmodel voor robotmanipulatie moet getrouw kunnen generaliseren over taken en platformen heen, waarbij tevens kostenefficiëntie wordt gewaarborgd (bijv. qua benodigde data en GPU-uren voor aanpassing). Hiertoe ontwikkelden we LingBot-VLA met ongeveer 20.000 uur aan real-world data van 9 populaire dual-arm robotconfiguraties. Via een systematische evaluatie op 3 robotplatforms – waarbij elk platform 100 taken uitvoerde met 130 post-training episodes per taak – behaalt ons model een duidelijke superioriteit ten opzichte van concurrenten, wat zijn sterke prestaties en brede generaliseerbaarheid aantoont. We hebben tevens een efficiënte codebase gebouwd, die een doorvoersnelheid van 261 samples per seconde per GPU levert bij een trainingopstelling met 8 GPU's, wat een versnelling van 1,5 tot 2,8 keer (afhankelijk van het gebruikte VLM-basismodel) vertegenwoordigt ten opzichte van bestaande VLA-gerichte codebases. Bovenstaande eigenschappen garanderen dat ons model uitstekend geschikt is voor inzet in de praktijk. Om het vakgebied van robotleren vooruit te helpen, stellen we de code, het basismodel en de benchmarkdata openbaar beschikbaar, met de focus op het mogelijk maken van uitdagendere taken en het bevorderen van degelijke evaluatiestandaarden.

English

Offering great potential in robotic manipulation, a capable Vision-Language-Action (VLA) foundation model is expected to faithfully generalize across tasks and platforms while ensuring cost efficiency (e.g., data and GPU hours required for adaptation). To this end, we develop LingBot-VLA with around 20,000 hours of real-world data from 9 popular dual-arm robot configurations. Through a systematic assessment on 3 robotic platforms, each completing 100 tasks with 130 post-training episodes per task, our model achieves clear superiority over competitors, showcasing its strong performance and broad generalizability. We have also built an efficient codebase, which delivers a throughput of 261 samples per second per GPU with an 8-GPU training setup, representing a 1.5~2.8times (depending on the relied VLM base model) speedup over existing VLA-oriented codebases. The above features ensure that our model is well-suited for real-world deployment. To advance the field of robot learning, we provide open access to the code, base model, and benchmark data, with a focus on enabling more challenging tasks and promoting sound evaluation standards.

Een pragmatisch VLA-fundamentmodel

A Pragmatic VLA Foundation Model

Samenvatting

Support