X-VLA: Трансформер с мягкими промптами как масштабируемая кросс-эмбодиментная модель "Видение-Язык-Действие"

Аннотация

Успешные универсальные модели Vision-Language-Action (VLA) основываются на эффективном обучении на разнообразных роботизированных платформах с использованием крупномасштабных, кросс-эмбодиментных и гетерогенных наборов данных. Для облегчения и использования гетерогенности в богатых и разнообразных источниках роботизированных данных мы предлагаем новый подход Soft Prompt с минимальным добавлением параметров, внедряя концепции обучения подсказок в кросс-эмбодиментное обучение роботов и вводя отдельные наборы обучаемых вложений для каждого уникального источника данных. Эти вложения служат эмбодимент-специфичными подсказками, которые в совокупности наделяют модели VLA эффективным использованием различных кросс-эмбодиментных особенностей. Наша новая модель X-VLA, основанная на аккуратном подходе к сопоставлению потоков, полагается исключительно на стандартные кодировщики Transformer с мягкими подсказками, сочетая масштабируемость и простоту. Протестированная на 6 симуляциях и 3 реальных роботах, наша реализация X-VLA-0.9B с 0.9 миллиардами параметров одновременно демонстрирует наилучшие результаты на множестве тестов, показывая превосходные результаты по широкому спектру возможностей — от гибкой ловкости до быстрой адаптации к различным эмбодиментам, средам и задачам. Веб-сайт: https://thu-air-dream.github.io/X-VLA/

English

Successful generalist Vision-Language-Action (VLA) models rely on effective training across diverse robotic platforms with large-scale, cross-embodiment, heterogeneous datasets. To facilitate and leverage the heterogeneity in rich, diverse robotic data sources, we propose a novel Soft Prompt approach with minimally added parameters, by infusing prompt learning concepts into cross-embodiment robot learning and introducing separate sets of learnable embeddings for each distinct data source. These embeddings serve as embodiment-specific prompts, which in unity empower VLA models with effective exploitation of varying cross-embodiment features. Our new X-VLA, a neat flow-matching-based VLA architecture, relies exclusively on soft-prompted standard Transformer encoders, enjoying both scalability and simplicity. Evaluated across 6 simulations as well as 3 real-world robots, our 0.9B instantiation-X-VLA-0.9B simultaneously achieves SOTA performance over a sweep of benchmarks, demonstrating superior results on a wide axes of capabilities, from flexible dexterity to quick adaptation across embodiments, environments, and tasks. Website: https://thu-air-dream.github.io/X-VLA/

X-VLA: Трансформер с мягкими промптами как масштабируемая кросс-эмбодиментная модель "Видение-Язык-Действие"

X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model

Аннотация

Support