Cortex 2.0: Fondare i Modelli del Mondo su Implementazioni Industriali nel Mondo Reale
Cortex 2.0: Grounding World Models in Real-World Industrial Deployment
April 22, 2026
Autori: Adriana Aida, Walida Amer, Katarina Bankovic, Dhruv Behl, Fabian Busch, Annie Bhalla, Minh Duong, Florian Gienger, Rohan Godse, Denis Grachev, Ralf Gulde, Elisa Hagensieker, Junpeng Hu, Shivam Joshi, Tobias Knoblauch, Likith Kumar, Damien LaRocque, Keerthana Lokesh, Omar Moured, Khiem Nguyen, Christian Preyss, Ranjith Sriganesan, Vikram Singh, Carsten Sponner, Anh Tong, Dominik Tuscher, Marc Tuscher, Pavan Upputuri
cs.AI
Abstract
La manipolazione robotica industriale richiede un'esecuzione affidabile su lunghi orizzonti temporali attraverso diverse implementazioni, compiti e distribuzioni di oggetti in evoluzione. Sebbene i modelli Visione-Linguaggio-Azione abbiano dimostrato una forte capacità di generalizzazione, rimangono fondamentalmente reattivi. Ottimizzando l'azione successiva in base all'osservazione corrente senza valutare gli scenari futuri potenziali, risultano fragili di fronte alle modalità di errore cumulative dei compiti a lungo termine. Cortex 2.0 passa dal controllo reattivo a un paradigma "pianifica e agisci" generando traiettorie future candidate nello spazio latente visivo, assegnando loro un punto in base alla probabilità di successo e all'efficienza attese, per poi impegnarsi esclusivamente nella candidata con il punteggio più alto. Valutiamo Cortex 2.0 su una piattaforma di manipolazione a braccio singolo e a doppio braccio attraverso quattro compiti di complessità crescente: pick and place, smistamento di oggetti e rifiuti, smistamento di viti e disimballaggio di scatole da scarpe. Cortex 2.0 supera costantemente i modelli di riferimento allo stato dell'arte di tipo Visione-Linguaggio-Azione, ottenendo i risultati migliori in tutti i compiti. Il sistema rimane affidabile in ambienti non strutturati caratterizzati da disordine accentuato, occlusioni frequenti e manipolazione ricca di contatti, dove le politiche reattive falliscono. Questi risultati dimostrano che una pianificazione basata su modelli del mondo può operare in modo affidabile in ambienti industriali complessi.
English
Industrial robotic manipulation demands reliable long-horizon execution across embodiments, tasks, and changing object distributions. While Vision-Language-Action models have demonstrated strong generalization, they remain fundamentally reactive. By optimizing the next action given the current observation without evaluating potential futures, they are brittle to the compounding failure modes of long-horizon tasks. Cortex 2.0 shifts from reactive control to plan-and-act by generating candidate future trajectories in visual latent space, scoring them for expected success and efficiency, then committing only to the highest-scoring candidate. We evaluate Cortex 2.0 on a single-arm and dual-arm manipulation platform across four tasks of increasing complexity: pick and place, item and trash sorting, screw sorting, and shoebox unpacking. Cortex 2.0 consistently outperforms state-of-the-art Vision-Language-Action baselines, achieving the best results across all tasks. The system remains reliable in unstructured environments characterized by heavy clutter, frequent occlusions, and contact-rich manipulation, where reactive policies fail. These results demonstrate that world-model-based planning can operate reliably in complex industrial environments.