Rapport Technique RLDX-1

Résumé

Si les modèles vision-langage-action (VLA) ont montré des progrès remarquables vers des politiques robotiques généralistes de type humain grâce à l'intelligence polyvalente (c'est-à-dire une compréhension étendue des scènes et une généralisation conditionnée par le langage) héritée des modèles vision-langage pré-entraînés, ils peinent encore avec les tâches complexes du monde réel qui nécessitent des capacités fonctionnelles plus larges (par exemple, la conscience du mouvement, la prise de décision avec mémoire et la perception physique). Pour résoudre ce problème, nous présentons RLDX-1, une politique robotique polyvalente pour la manipulation dextre, basée sur le Transformeur d'Action Multi-flots (MSAT), une architecture qui unifie ces capacités en intégrant des modalités hétérogènes via des flux spécifiques à chaque modalité avec une auto-attention conjointe intermodale. RLDX-1 combine en outre cette architecture avec des choix de conception au niveau du système, incluant la synthèse de données d'entraînement pour des scénarios de manipulation rares, des procédures d'apprentissage spécialisées pour une manipulation de type humain, et des optimisations d'inférence pour un déploiement en temps réel. Par une évaluation empirique, nous montrons que RLDX-1 surpasse constamment les VLA récents de pointe (par exemple π_{0.5} et GR00T N1.6) à la fois dans des benchmarks de simulation et dans des tâches du monde réel qui exigent de larges capacités fonctionnelles au-delà de la simple polyvalence générale. En particulier, RLDX-1 démontre une supériorité dans les tâches humanoïdes ALLEX en atteignant des taux de réussite de 86,8 % tandis que π_{0.5} et GR00T N1.6 atteignent environ 40 %, soulignant la capacité de RLDX-1 à contrôler un robot humanoïde à haut degré de liberté sous diverses exigences fonctionnelles. Ensemble, ces résultats positionnent RLDX-1 comme une étape prometteuse vers des VLA fiables pour la manipulation dextre complexe, riche en contacts et dynamique dans le monde réel.

English

While Vision-Language-Action models (VLAs) have shown remarkable progress toward human-like generalist robotic policies through the versatile intelligence (i.e. broad scene understanding and language-conditioned generalization) inherited from pre-trained Vision-Language Models, they still struggle with complex real-world tasks requiring broader functional capabilities (e.g. motion awareness, memory-aware decision making, and physical sensing). To address this, we introduce RLDX-1, a general-purpose robotic policy for dexterous manipulation built on the Multi-Stream Action Transformer (MSAT), an architecture that unifies these capabilities by integrating heterogeneous modalities through modality-specific streams with cross-modal joint self-attention. RLDX-1 further combines this architecture with system-level design choices, including synthesizing training data for rare manipulation scenarios, learning procedures specialized for human-like manipulation, and inference optimizations for real-time deployment. Through empirical evaluation, we show that RLDX-1 consistently outperforms recent frontier VLAs (e.g. π_{0.5} and GR00T N1.6) across both simulation benchmarks and real-world tasks that require broad functional capabilities beyond general versatility. In particular, RLDX-1 shows superiority in ALLEX humanoid tasks by achieving success rates of 86.8% while π_{0.5} and GR00T N1.6 achieve around 40%, highlighting the ability of RLDX-1 to control a high-DoF humanoid robot under diverse functional demands. Together, these results position RLDX-1 as a promising step toward reliable VLAs for complex, contact-rich, and dynamic real-world dexterous manipulation.

Rapport Technique RLDX-1

RLDX-1 Technical Report

Résumé

Support