RLDX-1 기술 보고서
RLDX-1 Technical Report
May 5, 2026
저자: Dongyoung Kim, Huiwon Jang, Myungkyu Koo, Suhyeok Jang, Taeyoung Kim, Beomjun Kim, Byungjun Yoon, Changsung Jang, Daewon Choi, Dongsu Han, Donguk Lee, Heeseung Kwon, Hojin Jeon, Jaehyun Kang, Jaekyoung Bae, Jihyuk Lee, Jimin Lee, John Won, Joonwoo Ahn, Junhyeong Park, Junyoung Sung, Kyungmin Lee, Minseong Han, Minsung Yoon, Sejune Joo, Seonil Son, Seungcheol Park, Seunggeun Cho, Seungjun Moon, Seungku Kim, Yonghoon Dong, Yongjin Cho, Youngchan Kim, Chang Hwan Kim, Dohyeon Kim, Hazel Lee, Heecheol Kim, Hensen Ahn, Hyungkyu Ryu, Hyunsoo Choi, Hyunsoo Shin, Jaeheon Jung, Jaewoo Kim, Jinwook Kim, Joochul Chang, Joonsoo Kim, Junghun Park, Jungwoo Park, Junho Cho, Junhyeok Park, Junwon Lee, Kangwook Lee, Kwanghoon Kim, Kyoungwhan Choe, Manoj Bhadu, Nayoung Oh, Sangjun Kim, Sangwoo Kim, Seunghoon Shim, Seunghyun Kim, Seungjun Lee, Seungyup Ka, Sungryol Yang, Wook Jung, Yashu Shukla, Yeonjae Lee, Yeonwoo Bae, Jinwoo Shin
cs.AI
초록
비전-언어-행동 모델(VLAs)은 사전 학습된 비전-언어 모델로부터 계승한 다재다능한 지능(즉, 광범위한 장면 이해와 언어 조건화 일반화)을 통해 인간과 같은 일반 로봇 정책으로 눈에 띄는 진전을 보였지만, 여전히 더 넓은 기능적 능력(예: 운동 인식, 메모리 인식 의사 결정, 물리적 감지)을 요구하는 복잡한 현실 세계 작업에는 어려움을 겪고 있습니다. 이를 해결하기 위해 우리는 이질적인 모달리티를 모달리티 특화 스트림과 교차 모달 공동 자기 주의력을 통해 통합함으로써 이러한 능력들을 통일하는 아키텍처인 다중 스트림 액션 트랜스포머(MSAT)를 기반으로 한 정교한 조작을 위한 범용 로봇 정책 RLDX-1을 소개합니다. RLDX-1은 이 아키텍처에 희귀 조작 시나리오에 대한 훈련 데이터 합성, 인간과 같은 조작에 특화된 학습 절차, 실시간 배포를 위한 추론 최적화를 포함한 시스템 수준의 설계 선택을 추가로 결합합니다. 실증적 평가를 통해 RLDX-1이 일반적인 다재다능성을 넘어선 광범위한 기능적 능력을 요구하는 시뮬레이션 벤치마크와 현실 세계 작업 모두에서 최근 최첨단 VLA들(예: π_{0.5} 및 GR00T N1.6)을 꾸준히 능가함을 보여줍니다. 특히, RLDX-1은 π_{0.5}와 GR00T N1.6이 약 40%의 성공률을 기록하는 반면 86.8%의 성공률을 달성하여 ALLEX 휴머노이드 작업에서 우월성을 보여주며, 이는 다양한 기능적 요구 하에서 높은 자유도를 가진 휴머노이드 로봇을 제어하는 RLDX-1의 능력을 부각합니다. 이러한 결과들은 함께 RLDX-1을 복잡하고 접촉이 빈번하며 동적인 현실 세계의 정교한 조작을 위한 신뢰할 수 있는 VLA로 나아가는 유망한 단계로 위치시킵니다.
English
While Vision-Language-Action models (VLAs) have shown remarkable progress toward human-like generalist robotic policies through the versatile intelligence (i.e. broad scene understanding and language-conditioned generalization) inherited from pre-trained Vision-Language Models, they still struggle with complex real-world tasks requiring broader functional capabilities (e.g. motion awareness, memory-aware decision making, and physical sensing). To address this, we introduce RLDX-1, a general-purpose robotic policy for dexterous manipulation built on the Multi-Stream Action Transformer (MSAT), an architecture that unifies these capabilities by integrating heterogeneous modalities through modality-specific streams with cross-modal joint self-attention. RLDX-1 further combines this architecture with system-level design choices, including synthesizing training data for rare manipulation scenarios, learning procedures specialized for human-like manipulation, and inference optimizations for real-time deployment. Through empirical evaluation, we show that RLDX-1 consistently outperforms recent frontier VLAs (e.g. π_{0.5} and GR00T N1.6) across both simulation benchmarks and real-world tasks that require broad functional capabilities beyond general versatility. In particular, RLDX-1 shows superiority in ALLEX humanoid tasks by achieving success rates of 86.8% while π_{0.5} and GR00T N1.6 achieve around 40%, highlighting the ability of RLDX-1 to control a high-DoF humanoid robot under diverse functional demands. Together, these results position RLDX-1 as a promising step toward reliable VLAs for complex, contact-rich, and dynamic real-world dexterous manipulation.