Технический отчет RLDX-1
RLDX-1 Technical Report
May 5, 2026
Авторы: Dongyoung Kim, Huiwon Jang, Myungkyu Koo, Suhyeok Jang, Taeyoung Kim, Beomjun Kim, Byungjun Yoon, Changsung Jang, Daewon Choi, Dongsu Han, Donguk Lee, Heeseung Kwon, Hojin Jeon, Jaehyun Kang, Jaekyoung Bae, Jihyuk Lee, Jimin Lee, John Won, Joonwoo Ahn, Junhyeong Park, Junyoung Sung, Kyungmin Lee, Minseong Han, Minsung Yoon, Sejune Joo, Seonil Son, Seungcheol Park, Seunggeun Cho, Seungjun Moon, Seungku Kim, Yonghoon Dong, Yongjin Cho, Youngchan Kim, Chang Hwan Kim, Dohyeon Kim, Hazel Lee, Heecheol Kim, Hensen Ahn, Hyungkyu Ryu, Hyunsoo Choi, Hyunsoo Shin, Jaeheon Jung, Jaewoo Kim, Jinwook Kim, Joochul Chang, Joonsoo Kim, Junghun Park, Jungwoo Park, Junho Cho, Junhyeok Park, Junwon Lee, Kangwook Lee, Kwanghoon Kim, Kyoungwhan Choe, Manoj Bhadu, Nayoung Oh, Sangjun Kim, Sangwoo Kim, Seunghoon Shim, Seunghyun Kim, Seungjun Lee, Seungyup Ka, Sungryol Yang, Wook Jung, Yashu Shukla, Yeonjae Lee, Yeonwoo Bae, Jinwoo Shin
cs.AI
Аннотация
Хотя модели «Vision-Language-Action» (VLA) демонстрируют значительный прогресс в создании подобных человеческим универсальных роботизированных политик благодаря универсальному интеллекту (такому как широкое понимание сцены и обобщение с учетом языка), унаследованному от предварительно обученных моделей «Vision-Language», они по-прежнему испытывают трудности со сложными реальными задачами, требующими более широких функциональных возможностей (например, осознания движения, принятия решений с учетом памяти и физического восприятия). Для решения этой проблемы мы представляем RLDX-1 — универсальную роботизированную политику для ловкого манипулирования, построенную на основе «Трансформера действий с множественными потоками» (MSAT) — архитектуры, которая объединяет эти возможности за счет интеграции гетерогенных модальностей через специфичные для модальностей потоки с кросс-модальным совместным self-attention. RLDX-1 дополнительно сочетает эту архитектуру с системными проектными решениями, включая синтез обучающих данных для редких сценариев манипулирования, процедуры обучения, специализированные для подобного человеческому манипулирования, и оптимизации вывода для развертывания в реальном времени. Эмпирическая оценка показывает, что RLDX-1 последовательно превосходит новейшие фронтирные VLA (например, π_{0.5} и GR00T N1.6) как в симуляционных тестах, так и в реальных задачах, требующих широких функциональных возможностей, выходящих за рамки общей универсальности. В частности, RLDX-1 демонстрирует превосходство в задачах для гуманоида ALLEX, достигая показателей успешности 86,8%, в то время как π_{0.5} и GR00T N1.6 показывают около 40%, что подчеркивает способность RLDX-1 управлять гуманоидным роботом с высокой степенью свободы (DoF) в условиях разнообразных функциональных требований. В совокупности эти результаты позиционируют RLDX-1 как многообещающий шаг к созданию надежных VLA для сложного, богатого контактами и динамичного ловкого манипулирования в реальном мире.
English
While Vision-Language-Action models (VLAs) have shown remarkable progress toward human-like generalist robotic policies through the versatile intelligence (i.e. broad scene understanding and language-conditioned generalization) inherited from pre-trained Vision-Language Models, they still struggle with complex real-world tasks requiring broader functional capabilities (e.g. motion awareness, memory-aware decision making, and physical sensing). To address this, we introduce RLDX-1, a general-purpose robotic policy for dexterous manipulation built on the Multi-Stream Action Transformer (MSAT), an architecture that unifies these capabilities by integrating heterogeneous modalities through modality-specific streams with cross-modal joint self-attention. RLDX-1 further combines this architecture with system-level design choices, including synthesizing training data for rare manipulation scenarios, learning procedures specialized for human-like manipulation, and inference optimizations for real-time deployment. Through empirical evaluation, we show that RLDX-1 consistently outperforms recent frontier VLAs (e.g. π_{0.5} and GR00T N1.6) across both simulation benchmarks and real-world tasks that require broad functional capabilities beyond general versatility. In particular, RLDX-1 shows superiority in ALLEX humanoid tasks by achieving success rates of 86.8% while π_{0.5} and GR00T N1.6 achieve around 40%, highlighting the ability of RLDX-1 to control a high-DoF humanoid robot under diverse functional demands. Together, these results position RLDX-1 as a promising step toward reliable VLAs for complex, contact-rich, and dynamic real-world dexterous manipulation.