Технический отчет RLDX-1

Аннотация

Хотя модели «Vision-Language-Action» (VLA) демонстрируют значительный прогресс в создании подобных человеческим универсальных роботизированных политик благодаря универсальному интеллекту (такому как широкое понимание сцены и обобщение с учетом языка), унаследованному от предварительно обученных моделей «Vision-Language», они по-прежнему испытывают трудности со сложными реальными задачами, требующими более широких функциональных возможностей (например, осознания движения, принятия решений с учетом памяти и физического восприятия). Для решения этой проблемы мы представляем RLDX-1 — универсальную роботизированную политику для ловкого манипулирования, построенную на основе «Трансформера действий с множественными потоками» (MSAT) — архитектуры, которая объединяет эти возможности за счет интеграции гетерогенных модальностей через специфичные для модальностей потоки с кросс-модальным совместным self-attention. RLDX-1 дополнительно сочетает эту архитектуру с системными проектными решениями, включая синтез обучающих данных для редких сценариев манипулирования, процедуры обучения, специализированные для подобного человеческому манипулирования, и оптимизации вывода для развертывания в реальном времени. Эмпирическая оценка показывает, что RLDX-1 последовательно превосходит новейшие фронтирные VLA (например, π_{0.5} и GR00T N1.6) как в симуляционных тестах, так и в реальных задачах, требующих широких функциональных возможностей, выходящих за рамки общей универсальности. В частности, RLDX-1 демонстрирует превосходство в задачах для гуманоида ALLEX, достигая показателей успешности 86,8%, в то время как π_{0.5} и GR00T N1.6 показывают около 40%, что подчеркивает способность RLDX-1 управлять гуманоидным роботом с высокой степенью свободы (DoF) в условиях разнообразных функциональных требований. В совокупности эти результаты позиционируют RLDX-1 как многообещающий шаг к созданию надежных VLA для сложного, богатого контактами и динамичного ловкого манипулирования в реальном мире.

English

While Vision-Language-Action models (VLAs) have shown remarkable progress toward human-like generalist robotic policies through the versatile intelligence (i.e. broad scene understanding and language-conditioned generalization) inherited from pre-trained Vision-Language Models, they still struggle with complex real-world tasks requiring broader functional capabilities (e.g. motion awareness, memory-aware decision making, and physical sensing). To address this, we introduce RLDX-1, a general-purpose robotic policy for dexterous manipulation built on the Multi-Stream Action Transformer (MSAT), an architecture that unifies these capabilities by integrating heterogeneous modalities through modality-specific streams with cross-modal joint self-attention. RLDX-1 further combines this architecture with system-level design choices, including synthesizing training data for rare manipulation scenarios, learning procedures specialized for human-like manipulation, and inference optimizations for real-time deployment. Through empirical evaluation, we show that RLDX-1 consistently outperforms recent frontier VLAs (e.g. π_{0.5} and GR00T N1.6) across both simulation benchmarks and real-world tasks that require broad functional capabilities beyond general versatility. In particular, RLDX-1 shows superiority in ALLEX humanoid tasks by achieving success rates of 86.8% while π_{0.5} and GR00T N1.6 achieve around 40%, highlighting the ability of RLDX-1 to control a high-DoF humanoid robot under diverse functional demands. Together, these results position RLDX-1 as a promising step toward reliable VLAs for complex, contact-rich, and dynamic real-world dexterous manipulation.

Технический отчет RLDX-1

RLDX-1 Technical Report

Аннотация

Support