X-VLA: Transformador con Indicaciones Suaves como Modelo Escalable de Visión-Lenguaje-Acción en Embodiments Cruzados

Resumen

Los modelos generalistas exitosos de Visión-Lenguaje-Acción (VLA) dependen de un entrenamiento efectivo en diversas plataformas robóticas con conjuntos de datos heterogéneos, de gran escala y de múltiples encarnaciones. Para facilitar y aprovechar la heterogeneidad en fuentes de datos robóticos ricos y diversos, proponemos un novedoso enfoque de *Soft Prompt* con un mínimo de parámetros añadidos, al integrar conceptos de aprendizaje de *prompts* en el aprendizaje robótico de múltiples encarnaciones e introducir conjuntos separados de incrustaciones aprendibles para cada fuente de datos distinta. Estas incrustaciones funcionan como *prompts* específicos de encarnación, que en conjunto potencian a los modelos VLA para explotar de manera efectiva las características variadas de múltiples encarnaciones. Nuestro nuevo X-VLA, una arquitectura VLA basada en emparejamiento de flujos, se apoya exclusivamente en codificadores *Transformer* estándar con *soft prompts*, disfrutando tanto de escalabilidad como de simplicidad. Evaluado en 6 simulaciones y 3 robots del mundo real, nuestra instanciación de 0.9B, X-VLA-0.9B, logra simultáneamente un rendimiento de vanguardia en una amplia gama de puntos de referencia, demostrando resultados superiores en un amplio espectro de capacidades, desde destreza flexible hasta una rápida adaptación entre encarnaciones, entornos y tareas. Sitio web: https://thu-air-dream.github.io/X-VLA/

English

Successful generalist Vision-Language-Action (VLA) models rely on effective training across diverse robotic platforms with large-scale, cross-embodiment, heterogeneous datasets. To facilitate and leverage the heterogeneity in rich, diverse robotic data sources, we propose a novel Soft Prompt approach with minimally added parameters, by infusing prompt learning concepts into cross-embodiment robot learning and introducing separate sets of learnable embeddings for each distinct data source. These embeddings serve as embodiment-specific prompts, which in unity empower VLA models with effective exploitation of varying cross-embodiment features. Our new X-VLA, a neat flow-matching-based VLA architecture, relies exclusively on soft-prompted standard Transformer encoders, enjoying both scalability and simplicity. Evaluated across 6 simulations as well as 3 real-world robots, our 0.9B instantiation-X-VLA-0.9B simultaneously achieves SOTA performance over a sweep of benchmarks, demonstrating superior results on a wide axes of capabilities, from flexible dexterity to quick adaptation across embodiments, environments, and tasks. Website: https://thu-air-dream.github.io/X-VLA/

X-VLA: Transformador con Indicaciones Suaves como Modelo Escalable de Visión-Lenguaje-Acción en Embodiments Cruzados

X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model

Resumen

Support