RLDX-1 Technischer Bericht

Zusammenfassung

Während Vision-Language-Action-Modelle (VLAs) durch die vielseitige Intelligenz (d.h. breites Szenenverständnis und sprachkonditionierte Generalisierung) vortrainierter Vision-Language-Modelle bemerkenswerte Fortschritte in Richtung menschenähnlicher generalistischer Roboterpolitiken gezeigt haben, haben sie immer noch Schwierigkeiten mit komplexen realen Aufgaben, die breitere funktionale Fähigkeiten erfordern (z.B. Bewegungsbewusstsein, gedächtnisbasiertes Entscheidungsfinden und physikalische Sensorik). Um dies zu adressieren, stellen wir RLDX-1 vor, eine universelle Roboterpolitik für geschickte Manipulation, die auf dem Multi-Stream Action Transformer (MSAT) basiert – einer Architektur, die diese Fähigkeiten vereint, indem sie heterogene Modalitäten durch modalitätsspezifische Streams mit kreuzmodaler gemeinsamer Selbstaufmerksamkeit integriert. RLDX-1 kombiniert diese Architektur weiter mit systemweiten Designentscheidungen, einschließlich der Synthese von Trainingsdaten für seltene Manipulationsszenarien, spezialisierter Lernverfahren für menschenähnliche Manipulation und Inferenzoptimierungen für den Echtzeiteinsatz. Durch empirische Evaluation zeigen wir, dass RLDX-1 durchgängig neuere Spitzen-VLAs (z.B. π_{0,5} und GR00T N1.6) sowohl in Simulations-Benchmarks als auch in realen Aufgaben übertrifft, die breitere funktionale Fähigkeiten über allgemeine Vielseitigkeit hinaus erfordern. Insbesondere zeigt RLDX-1 Überlegenheit in ALLEX-Humanoid-Aufgaben, indem es Erfolgsquoten von 86,8 % erreicht, während π_{0,5} und GR00T N1.6 bei etwa 40 % liegen, was die Fähigkeit von RLDX-1 hervorhebt, einen Humanoidroboter mit vielen Freiheitsgraden unter verschiedenen funktionalen Anforderungen zu steuern. Zusammengenommen positionieren diese Ergebnisse RLDX-1 als einen vielversprechenden Schritt hin zu zuverlässigen VLAs für komplexe, kontaktreiche und dynamische geschickte Manipulation in der realen Welt.

English

While Vision-Language-Action models (VLAs) have shown remarkable progress toward human-like generalist robotic policies through the versatile intelligence (i.e. broad scene understanding and language-conditioned generalization) inherited from pre-trained Vision-Language Models, they still struggle with complex real-world tasks requiring broader functional capabilities (e.g. motion awareness, memory-aware decision making, and physical sensing). To address this, we introduce RLDX-1, a general-purpose robotic policy for dexterous manipulation built on the Multi-Stream Action Transformer (MSAT), an architecture that unifies these capabilities by integrating heterogeneous modalities through modality-specific streams with cross-modal joint self-attention. RLDX-1 further combines this architecture with system-level design choices, including synthesizing training data for rare manipulation scenarios, learning procedures specialized for human-like manipulation, and inference optimizations for real-time deployment. Through empirical evaluation, we show that RLDX-1 consistently outperforms recent frontier VLAs (e.g. π_{0.5} and GR00T N1.6) across both simulation benchmarks and real-world tasks that require broad functional capabilities beyond general versatility. In particular, RLDX-1 shows superiority in ALLEX humanoid tasks by achieving success rates of 86.8% while π_{0.5} and GR00T N1.6 achieve around 40%, highlighting the ability of RLDX-1 to control a high-DoF humanoid robot under diverse functional demands. Together, these results position RLDX-1 as a promising step toward reliable VLAs for complex, contact-rich, and dynamic real-world dexterous manipulation.

RLDX-1 Technischer Bericht

RLDX-1 Technical Report

Zusammenfassung

Support