Informe Técnico RLDX-1

Resumen

Si bien los modelos Visión-Lenguaje-Acción (VLA) han mostrado avances notables hacia políticas robóticas generalistas de tipo humano gracias a la inteligencia versátil (es decir, comprensión amplia de escenas y generalización condicionada por lenguaje) heredada de los modelos de visión y lenguaje preentrenados, aún tienen dificultades con tareas complejas del mundo real que requieren capacidades funcionales más amplias (por ejemplo, conciencia del movimiento, toma de decisiones con memoria y percepción física). Para abordar esto, presentamos RLDX-1, una política robótica de propósito general para la manipulación diestra construida sobre el Transformador de Acción de Flujos Múltiples (MSAT), una arquitectura que unifica estas capacidades mediante la integración de modalidades heterogéneas a través de flujos específicos por modalidad con autoatención conjunta cross-modal. RLDX-1 combina además esta arquitectura con decisiones de diseño a nivel de sistema, incluyendo la síntesis de datos de entrenamiento para escenarios de manipulación poco comunes, procedimientos de aprendizaje especializados para la manipulación de tipo humano y optimizaciones de inferencia para su implementación en tiempo real. Mediante evaluación empírica, demostramos que RLDX-1 supera consistentemente a los VLA más recientes de vanguardia (por ejemplo, π_{0.5} y GR00T N1.6) tanto en benchmarks de simulación como en tareas del mundo real que requieren capacidades funcionales amplias más allá de la versatilidad general. En particular, RLDX-1 muestra superioridad en las tareas humanoides ALLEX al lograr tasas de éxito del 86,8%, mientras que π_{0.5} y GR00T N1.6 alcanzan alrededor del 40%, destacando la capacidad de RLDX-1 para controlar un robot humanoide de alto GDL bajo diversas demandas funcionales. En conjunto, estos resultados posicionan a RLDX-1 como un paso prometedor hacia VLA confiables para la manipulación diestra compleja, rica en contactos y dinámica en el mundo real.

English

While Vision-Language-Action models (VLAs) have shown remarkable progress toward human-like generalist robotic policies through the versatile intelligence (i.e. broad scene understanding and language-conditioned generalization) inherited from pre-trained Vision-Language Models, they still struggle with complex real-world tasks requiring broader functional capabilities (e.g. motion awareness, memory-aware decision making, and physical sensing). To address this, we introduce RLDX-1, a general-purpose robotic policy for dexterous manipulation built on the Multi-Stream Action Transformer (MSAT), an architecture that unifies these capabilities by integrating heterogeneous modalities through modality-specific streams with cross-modal joint self-attention. RLDX-1 further combines this architecture with system-level design choices, including synthesizing training data for rare manipulation scenarios, learning procedures specialized for human-like manipulation, and inference optimizations for real-time deployment. Through empirical evaluation, we show that RLDX-1 consistently outperforms recent frontier VLAs (e.g. π_{0.5} and GR00T N1.6) across both simulation benchmarks and real-world tasks that require broad functional capabilities beyond general versatility. In particular, RLDX-1 shows superiority in ALLEX humanoid tasks by achieving success rates of 86.8% while π_{0.5} and GR00T N1.6 achieve around 40%, highlighting the ability of RLDX-1 to control a high-DoF humanoid robot under diverse functional demands. Together, these results position RLDX-1 as a promising step toward reliable VLAs for complex, contact-rich, and dynamic real-world dexterous manipulation.

Informe Técnico RLDX-1

RLDX-1 Technical Report

Resumen

Support