RLDX-1 Technisch Rapport

Samenvatting

Hoewel Vision-Language-Action-modellen (VLA's) aanzienlijke vooruitgang hebben geboekt in de richting van mensachtige, generalistische robotbeleidspolicies dankzij de veelzijdige intelligentie (zoals brede scènebegrip en taalgestuurde generalisatie) die is overgenomen van vooraf getrainde Vision-Language-modellen, worstelen ze nog steeds met complexe real-world taken die een breder scala aan functionele capaciteiten vereisen (bijvoorbeeld bewegingbewustzijn, geheugenbewuste besluitvorming en fysieke sensing). Om dit aan te pakken, introduceren we RLDX-1, een general-purpose robotpolicy voor behendige manipulatie, gebouwd op de Multi-Stream Action Transformer (MSAT). Dit is een architectuur die deze capaciteiten verenigt door heterogene modaliteiten te integreren via modaliteit-specifieke streams met cross-modale gezamenlijke zelf-attentie. RLDX-1 combineert deze architectuur verder met systeemniveau ontwerpkeuzes, waaronder het synthetiseren van trainingsdata voor zeldzame manipulatiescenario's, leerprocedures gespecialiseerd voor mensachtige manipulatie, en inferentie-optimalisaties voor real-time inzet. Door empirische evaluatie tonen we aan dat RLDX-1 consistent superieure prestaties levert vergeleken met recente frontier VLA's (zoals π_{0.5} en GR00T N1.6) in zowel simulatiebenchmarks als real-world taken die brede functionele capaciteiten vereisen die verder gaan dan algemene veelzijdigheid. In het bijzonder toont RLDX-1 superioriteit in ALLEX humanoïde taken door slagingspercentages van 86,8% te behalen, terwijl π_{0.5} en GR00T N1.6 rond de 40% halen. Dit benadrukt het vermogen van RLDX-1 om een humanoïde robot met een hoog aantal vrijheidsgraden (DoF) aan te sturen onder diverse functionele eisen. Gezamenlijk positioneren deze resultaten RLDX-1 als een veelbelovende stap in de richting van betrouwbare VLA's voor complexe, contactrijke en dynamische real-world behendige manipulatie.

English

While Vision-Language-Action models (VLAs) have shown remarkable progress toward human-like generalist robotic policies through the versatile intelligence (i.e. broad scene understanding and language-conditioned generalization) inherited from pre-trained Vision-Language Models, they still struggle with complex real-world tasks requiring broader functional capabilities (e.g. motion awareness, memory-aware decision making, and physical sensing). To address this, we introduce RLDX-1, a general-purpose robotic policy for dexterous manipulation built on the Multi-Stream Action Transformer (MSAT), an architecture that unifies these capabilities by integrating heterogeneous modalities through modality-specific streams with cross-modal joint self-attention. RLDX-1 further combines this architecture with system-level design choices, including synthesizing training data for rare manipulation scenarios, learning procedures specialized for human-like manipulation, and inference optimizations for real-time deployment. Through empirical evaluation, we show that RLDX-1 consistently outperforms recent frontier VLAs (e.g. π_{0.5} and GR00T N1.6) across both simulation benchmarks and real-world tasks that require broad functional capabilities beyond general versatility. In particular, RLDX-1 shows superiority in ALLEX humanoid tasks by achieving success rates of 86.8% while π_{0.5} and GR00T N1.6 achieve around 40%, highlighting the ability of RLDX-1 to control a high-DoF humanoid robot under diverse functional demands. Together, these results position RLDX-1 as a promising step toward reliable VLAs for complex, contact-rich, and dynamic real-world dexterous manipulation.

RLDX-1 Technisch Rapport

RLDX-1 Technical Report

Samenvatting

Support