Cortex 2.0 : Ancrage des modèles du monde dans le déploiement industriel réel
Cortex 2.0: Grounding World Models in Real-World Industrial Deployment
April 22, 2026
Auteurs: Adriana Aida, Walida Amer, Katarina Bankovic, Dhruv Behl, Fabian Busch, Annie Bhalla, Minh Duong, Florian Gienger, Rohan Godse, Denis Grachev, Ralf Gulde, Elisa Hagensieker, Junpeng Hu, Shivam Joshi, Tobias Knoblauch, Likith Kumar, Damien LaRocque, Keerthana Lokesh, Omar Moured, Khiem Nguyen, Christian Preyss, Ranjith Sriganesan, Vikram Singh, Carsten Sponner, Anh Tong, Dominik Tuscher, Marc Tuscher, Pavan Upputuri
cs.AI
Résumé
La manipulation robotique industrielle nécessite une exécution fiable à long terme, quelles que soient les configurations matérielles, les tâches et les distributions changeantes d'objets. Si les modèles Vision-Langage-Action ont démontré une forte capacité de généralisation, ils restent fondamentalement réactifs. En optimisant l'action suivante sur la base de l'observation courante sans évaluer les futurs possibles, ils sont vulnérables aux modes de défaillance cumulatifs des tâches à long terme. Cortex 2.0 abandonne le contrôle réactif au profit d'une approche planifier-puis-agir en générant des trajectoires futures candidates dans l'espace latent visuel, en les évaluant selon leur probabilité de succès et leur efficacité, puis en s'engageant uniquement sur la candidate la mieux notée. Nous évaluons Cortex 2.0 sur une plateforme de manipulation à un et deux bras à travers quatre tâches de complexité croissante : prise et dépôt, tri d'objets et de déchets, tri de vis et déballage de boîtes à chaussures. Cortex 2.0 surpasse constamment les modèles de référence Vision-Langage-Action de pointe, obtenant les meilleurs résultats sur toutes les tâches. Le système reste fiable dans des environnements non structurés caractérisés par un encombrement important, des occlusions fréquentes et des manipulations riches en contacts, là où les politiques réactives échouent. Ces résultats démontrent que la planification basée sur un modèle du monde peut opérer de manière fiable dans des environnements industriels complexes.
English
Industrial robotic manipulation demands reliable long-horizon execution across embodiments, tasks, and changing object distributions. While Vision-Language-Action models have demonstrated strong generalization, they remain fundamentally reactive. By optimizing the next action given the current observation without evaluating potential futures, they are brittle to the compounding failure modes of long-horizon tasks. Cortex 2.0 shifts from reactive control to plan-and-act by generating candidate future trajectories in visual latent space, scoring them for expected success and efficiency, then committing only to the highest-scoring candidate. We evaluate Cortex 2.0 on a single-arm and dual-arm manipulation platform across four tasks of increasing complexity: pick and place, item and trash sorting, screw sorting, and shoebox unpacking. Cortex 2.0 consistently outperforms state-of-the-art Vision-Language-Action baselines, achieving the best results across all tasks. The system remains reliable in unstructured environments characterized by heavy clutter, frequent occlusions, and contact-rich manipulation, where reactive policies fail. These results demonstrate that world-model-based planning can operate reliably in complex industrial environments.