RLDX-1 技術報告書
RLDX-1 Technical Report
May 5, 2026
著者: Dongyoung Kim, Huiwon Jang, Myungkyu Koo, Suhyeok Jang, Taeyoung Kim, Beomjun Kim, Byungjun Yoon, Changsung Jang, Daewon Choi, Dongsu Han, Donguk Lee, Heeseung Kwon, Hojin Jeon, Jaehyun Kang, Jaekyoung Bae, Jihyuk Lee, Jimin Lee, John Won, Joonwoo Ahn, Junhyeong Park, Junyoung Sung, Kyungmin Lee, Minseong Han, Minsung Yoon, Sejune Joo, Seonil Son, Seungcheol Park, Seunggeun Cho, Seungjun Moon, Seungku Kim, Yonghoon Dong, Yongjin Cho, Youngchan Kim, Chang Hwan Kim, Dohyeon Kim, Hazel Lee, Heecheol Kim, Hensen Ahn, Hyungkyu Ryu, Hyunsoo Choi, Hyunsoo Shin, Jaeheon Jung, Jaewoo Kim, Jinwook Kim, Joochul Chang, Joonsoo Kim, Junghun Park, Jungwoo Park, Junho Cho, Junhyeok Park, Junwon Lee, Kangwook Lee, Kwanghoon Kim, Kyoungwhan Choe, Manoj Bhadu, Nayoung Oh, Sangjun Kim, Sangwoo Kim, Seunghoon Shim, Seunghyun Kim, Seungjun Lee, Seungyup Ka, Sungryol Yang, Wook Jung, Yashu Shukla, Yeonjae Lee, Yeonwoo Bae, Jinwoo Shin
cs.AI
要旨
視覚言語行動モデル(VLA)は、事前学習済み視覚言語モデルから継承した汎用的な知能(広範なシーン理解と言語条件付き一般化)により、人間のような汎用ロボットポリシーに向けた顕著な進歩を見せている。しかし、より広範な機能的能力(運動知覚、メモリを考慮した意思決定、物理的センシングなど)を必要とする複雑な実世界タスクには未だ苦戦している。この課題に対処するため、我々は多様なモダリティをモダリティ固有のストリームとクロスモーダル共同セルフアテンションによって統合するアーキテクチャであるMulti-Stream Action Transformer(MSAT)上に構築された、器用なマニピュレーションのための汎用ロボットポリシーRLDX-1を提案する。RLDX-1はさらに、稀なマニピュレーションシナリオ向け訓練データの合成、人間のようなマニピュレーションに特化した学習手順、リアルタイム展開のための推論最適化といったシステムレベルの設計選択を組み合わせている。実証評価を通じて、RLDX-1がシミュレーションベンチマークと汎用的な多用途性を超えた広範な機能的能力を必要とする実世界タスクの両方において、最近の先進VLA(例:π_{0.5}やGR00T N1.6)を一貫して上回ることを示す。特にRLDX-1はALLEXヒューマノイドタスクにおいて、π_{0.5}やGR00T N1.6が約40%であるのに対し86.8%の成功率を達成し、多様な機能的要求下で高自由度ヒューマノイドロボットを制御するRLDX-1の能力を強調している。これらの結果は総合的に、複雑で接触が頻繁かつ動的な実世界の器用マニピュレーションにおける信頼性の高いVLAへの有望な一歩としてRLDX-1を位置づけるものである。
English
While Vision-Language-Action models (VLAs) have shown remarkable progress toward human-like generalist robotic policies through the versatile intelligence (i.e. broad scene understanding and language-conditioned generalization) inherited from pre-trained Vision-Language Models, they still struggle with complex real-world tasks requiring broader functional capabilities (e.g. motion awareness, memory-aware decision making, and physical sensing). To address this, we introduce RLDX-1, a general-purpose robotic policy for dexterous manipulation built on the Multi-Stream Action Transformer (MSAT), an architecture that unifies these capabilities by integrating heterogeneous modalities through modality-specific streams with cross-modal joint self-attention. RLDX-1 further combines this architecture with system-level design choices, including synthesizing training data for rare manipulation scenarios, learning procedures specialized for human-like manipulation, and inference optimizations for real-time deployment. Through empirical evaluation, we show that RLDX-1 consistently outperforms recent frontier VLAs (e.g. π_{0.5} and GR00T N1.6) across both simulation benchmarks and real-world tasks that require broad functional capabilities beyond general versatility. In particular, RLDX-1 shows superiority in ALLEX humanoid tasks by achieving success rates of 86.8% while π_{0.5} and GR00T N1.6 achieve around 40%, highlighting the ability of RLDX-1 to control a high-DoF humanoid robot under diverse functional demands. Together, these results position RLDX-1 as a promising step toward reliable VLAs for complex, contact-rich, and dynamic real-world dexterous manipulation.