RLDX-1 Technisch Rapport
RLDX-1 Technical Report
May 5, 2026
Auteurs: Dongyoung Kim, Huiwon Jang, Myungkyu Koo, Suhyeok Jang, Taeyoung Kim, Beomjun Kim, Byungjun Yoon, Changsung Jang, Daewon Choi, Dongsu Han, Donguk Lee, Heeseung Kwon, Hojin Jeon, Jaehyun Kang, Jaekyoung Bae, Jihyuk Lee, Jimin Lee, John Won, Joonwoo Ahn, Junhyeong Park, Junyoung Sung, Kyungmin Lee, Minseong Han, Minsung Yoon, Sejune Joo, Seonil Son, Seungcheol Park, Seunggeun Cho, Seungjun Moon, Seungku Kim, Yonghoon Dong, Yongjin Cho, Youngchan Kim, Chang Hwan Kim, Dohyeon Kim, Hazel Lee, Heecheol Kim, Hensen Ahn, Hyungkyu Ryu, Hyunsoo Choi, Hyunsoo Shin, Jaeheon Jung, Jaewoo Kim, Jinwook Kim, Joochul Chang, Joonsoo Kim, Junghun Park, Jungwoo Park, Junho Cho, Junhyeok Park, Junwon Lee, Kangwook Lee, Kwanghoon Kim, Kyoungwhan Choe, Manoj Bhadu, Nayoung Oh, Sangjun Kim, Sangwoo Kim, Seunghoon Shim, Seunghyun Kim, Seungjun Lee, Seungyup Ka, Sungryol Yang, Wook Jung, Yashu Shukla, Yeonjae Lee, Yeonwoo Bae, Jinwoo Shin
cs.AI
Samenvatting
Hoewel Vision-Language-Action-modellen (VLA's) aanzienlijke vooruitgang hebben geboekt in de richting van mensachtige, generalistische robotbeleidspolicies dankzij de veelzijdige intelligentie (zoals brede scènebegrip en taalgestuurde generalisatie) die is overgenomen van vooraf getrainde Vision-Language-modellen, worstelen ze nog steeds met complexe real-world taken die een breder scala aan functionele capaciteiten vereisen (bijvoorbeeld bewegingbewustzijn, geheugenbewuste besluitvorming en fysieke sensing). Om dit aan te pakken, introduceren we RLDX-1, een general-purpose robotpolicy voor behendige manipulatie, gebouwd op de Multi-Stream Action Transformer (MSAT). Dit is een architectuur die deze capaciteiten verenigt door heterogene modaliteiten te integreren via modaliteit-specifieke streams met cross-modale gezamenlijke zelf-attentie. RLDX-1 combineert deze architectuur verder met systeemniveau ontwerpkeuzes, waaronder het synthetiseren van trainingsdata voor zeldzame manipulatiescenario's, leerprocedures gespecialiseerd voor mensachtige manipulatie, en inferentie-optimalisaties voor real-time inzet. Door empirische evaluatie tonen we aan dat RLDX-1 consistent superieure prestaties levert vergeleken met recente frontier VLA's (zoals π_{0.5} en GR00T N1.6) in zowel simulatiebenchmarks als real-world taken die brede functionele capaciteiten vereisen die verder gaan dan algemene veelzijdigheid. In het bijzonder toont RLDX-1 superioriteit in ALLEX humanoïde taken door slagingspercentages van 86,8% te behalen, terwijl π_{0.5} en GR00T N1.6 rond de 40% halen. Dit benadrukt het vermogen van RLDX-1 om een humanoïde robot met een hoog aantal vrijheidsgraden (DoF) aan te sturen onder diverse functionele eisen. Gezamenlijk positioneren deze resultaten RLDX-1 als een veelbelovende stap in de richting van betrouwbare VLA's voor complexe, contactrijke en dynamische real-world behendige manipulatie.
English
While Vision-Language-Action models (VLAs) have shown remarkable progress toward human-like generalist robotic policies through the versatile intelligence (i.e. broad scene understanding and language-conditioned generalization) inherited from pre-trained Vision-Language Models, they still struggle with complex real-world tasks requiring broader functional capabilities (e.g. motion awareness, memory-aware decision making, and physical sensing). To address this, we introduce RLDX-1, a general-purpose robotic policy for dexterous manipulation built on the Multi-Stream Action Transformer (MSAT), an architecture that unifies these capabilities by integrating heterogeneous modalities through modality-specific streams with cross-modal joint self-attention. RLDX-1 further combines this architecture with system-level design choices, including synthesizing training data for rare manipulation scenarios, learning procedures specialized for human-like manipulation, and inference optimizations for real-time deployment. Through empirical evaluation, we show that RLDX-1 consistently outperforms recent frontier VLAs (e.g. π_{0.5} and GR00T N1.6) across both simulation benchmarks and real-world tasks that require broad functional capabilities beyond general versatility. In particular, RLDX-1 shows superiority in ALLEX humanoid tasks by achieving success rates of 86.8% while π_{0.5} and GR00T N1.6 achieve around 40%, highlighting the ability of RLDX-1 to control a high-DoF humanoid robot under diverse functional demands. Together, these results position RLDX-1 as a promising step toward reliable VLAs for complex, contact-rich, and dynamic real-world dexterous manipulation.