Cortex 2.0: Fundamentando Modelos Mundiales en el Despliegue Industrial del Mundo Real

Resumen

La manipulación robótica industrial exige una ejecución fiable a largo plazo en diferentes configuraciones, tareas y distribuciones cambiantes de objetos. Si bien los modelos Visión-Lenguaje-Acción han demostrado una gran capacidad de generalización, siguen siendo fundamentalmente reactivos. Al optimizar la siguiente acción dada la observación actual sin evaluar los futuros potenciales, son frágiles ante los modos de fallo acumulativos de las tareas de largo horizonte. Cortex 2.0 cambia del control reactivo a un paradigma de planificar y actuar, generando trayectorias futuras candidatas en un espacio latente visual, puntuándolas según su éxito y eficiencia esperados, y comprometiéndose únicamente con el candidato mejor puntuado. Evaluamos Cortex 2.0 en una plataforma de manipulación con un brazo y con dos brazos, en cuatro tareas de complejidad creciente: recoger y colocar, clasificación de objetos y residuos, clasificación de tornillos y desempaquetado de una caja de zapatos. Cortex 2.0 supera consistentemente a los sistemas de referencia más avanzados basados en Visión-Lenguaje-Acción, logrando los mejores resultados en todas las tareas. El sistema mantiene su fiabilidad en entornos no estructurados caracterizados por un alto desorden, oclusiones frecuentes y manipulación con contacto intenso, donde las políticas reactivas fallan. Estos resultados demuestran que la planificación basada en modelos del mundo puede operar de forma fiable en entornos industriales complejos.

English

Industrial robotic manipulation demands reliable long-horizon execution across embodiments, tasks, and changing object distributions. While Vision-Language-Action models have demonstrated strong generalization, they remain fundamentally reactive. By optimizing the next action given the current observation without evaluating potential futures, they are brittle to the compounding failure modes of long-horizon tasks. Cortex 2.0 shifts from reactive control to plan-and-act by generating candidate future trajectories in visual latent space, scoring them for expected success and efficiency, then committing only to the highest-scoring candidate. We evaluate Cortex 2.0 on a single-arm and dual-arm manipulation platform across four tasks of increasing complexity: pick and place, item and trash sorting, screw sorting, and shoebox unpacking. Cortex 2.0 consistently outperforms state-of-the-art Vision-Language-Action baselines, achieving the best results across all tasks. The system remains reliable in unstructured environments characterized by heavy clutter, frequent occlusions, and contact-rich manipulation, where reactive policies fail. These results demonstrate that world-model-based planning can operate reliably in complex industrial environments.

Cortex 2.0: Fundamentando Modelos Mundiales en el Despliegue Industrial del Mundo Real

Cortex 2.0: Grounding World Models in Real-World Industrial Deployment

Resumen

Support