Cortex 2.0 : Ancrage des modèles du monde dans le déploiement industriel réel

Résumé

La manipulation robotique industrielle nécessite une exécution fiable à long terme, quelles que soient les configurations matérielles, les tâches et les distributions changeantes d'objets. Si les modèles Vision-Langage-Action ont démontré une forte capacité de généralisation, ils restent fondamentalement réactifs. En optimisant l'action suivante sur la base de l'observation courante sans évaluer les futurs possibles, ils sont vulnérables aux modes de défaillance cumulatifs des tâches à long terme. Cortex 2.0 abandonne le contrôle réactif au profit d'une approche planifier-puis-agir en générant des trajectoires futures candidates dans l'espace latent visuel, en les évaluant selon leur probabilité de succès et leur efficacité, puis en s'engageant uniquement sur la candidate la mieux notée. Nous évaluons Cortex 2.0 sur une plateforme de manipulation à un et deux bras à travers quatre tâches de complexité croissante : prise et dépôt, tri d'objets et de déchets, tri de vis et déballage de boîtes à chaussures. Cortex 2.0 surpasse constamment les modèles de référence Vision-Langage-Action de pointe, obtenant les meilleurs résultats sur toutes les tâches. Le système reste fiable dans des environnements non structurés caractérisés par un encombrement important, des occlusions fréquentes et des manipulations riches en contacts, là où les politiques réactives échouent. Ces résultats démontrent que la planification basée sur un modèle du monde peut opérer de manière fiable dans des environnements industriels complexes.

English

Industrial robotic manipulation demands reliable long-horizon execution across embodiments, tasks, and changing object distributions. While Vision-Language-Action models have demonstrated strong generalization, they remain fundamentally reactive. By optimizing the next action given the current observation without evaluating potential futures, they are brittle to the compounding failure modes of long-horizon tasks. Cortex 2.0 shifts from reactive control to plan-and-act by generating candidate future trajectories in visual latent space, scoring them for expected success and efficiency, then committing only to the highest-scoring candidate. We evaluate Cortex 2.0 on a single-arm and dual-arm manipulation platform across four tasks of increasing complexity: pick and place, item and trash sorting, screw sorting, and shoebox unpacking. Cortex 2.0 consistently outperforms state-of-the-art Vision-Language-Action baselines, achieving the best results across all tasks. The system remains reliable in unstructured environments characterized by heavy clutter, frequent occlusions, and contact-rich manipulation, where reactive policies fail. These results demonstrate that world-model-based planning can operate reliably in complex industrial environments.

Cortex 2.0 : Ancrage des modèles du monde dans le déploiement industriel réel

Cortex 2.0: Grounding World Models in Real-World Industrial Deployment

Résumé

Support