Cortex 2.0: Het Verankeren van Wereldmodellen in Praktische Industriële Implementatie

Samenvatting

Industriële robotmanipulatie vereist betrouwbare uitvoering op lange termijn over verschillende uitvoeringsvormen, taken en veranderende objectdistributies. Hoewel Vision-Language-Action-modellen sterke generalisatie hebben aangetoond, blijven ze fundamenteel reactief. Door de volgende actie te optimaliseren op basis van de huidige observatie zonder toekomstige mogelijkheden te evalueren, zijn ze broos voor de cumulatieve faalmodi van taken met een lange horizon. Cortex 2.0 verschuift van reactieve controle naar plan-en-handel door kandidaat-toekomsttrajecten te genereren in de visuele latente ruimte, deze te scoren op verwacht succes en efficiëntie, en zich alleen te verbinden aan de kandidaat met de hoogste score. We evalueren Cortex 2.0 op een platform voor manipulatie met één arm en twee armen over vier taken van toenemende complexiteit: oppakken en plaatsen, sorteren van items en afval, schroeven sorteren en uitpakken van een schoenendoos. Cortex 2.0 presteert consistent beter dan state-of-the-art Vision-Language-Action-baselines en behaalt de beste resultaten voor alle taken. Het systeem blijft betrouwbaar in ongestructureerde omgevingen die worden gekenmerkt door zware rommel, frequente occlusies en manipulatie met veel contact, waar reactieve beleidsregels falen. Deze resultaten tonen aan dat planning op basis van wereldmodellen betrouwbaar kan opereren in complexe industriële omgevingen.

English

Industrial robotic manipulation demands reliable long-horizon execution across embodiments, tasks, and changing object distributions. While Vision-Language-Action models have demonstrated strong generalization, they remain fundamentally reactive. By optimizing the next action given the current observation without evaluating potential futures, they are brittle to the compounding failure modes of long-horizon tasks. Cortex 2.0 shifts from reactive control to plan-and-act by generating candidate future trajectories in visual latent space, scoring them for expected success and efficiency, then committing only to the highest-scoring candidate. We evaluate Cortex 2.0 on a single-arm and dual-arm manipulation platform across four tasks of increasing complexity: pick and place, item and trash sorting, screw sorting, and shoebox unpacking. Cortex 2.0 consistently outperforms state-of-the-art Vision-Language-Action baselines, achieving the best results across all tasks. The system remains reliable in unstructured environments characterized by heavy clutter, frequent occlusions, and contact-rich manipulation, where reactive policies fail. These results demonstrate that world-model-based planning can operate reliably in complex industrial environments.

Cortex 2.0: Het Verankeren van Wereldmodellen in Praktische Industriële Implementatie

Cortex 2.0: Grounding World Models in Real-World Industrial Deployment

Samenvatting

Support