Cortex 2.0: Verankerung von Weltmodellen im realen industriellen Einsatz

Zusammenfassung

Die industrielle Robotermanipulation erfordert eine zuverlässige Ausführung über lange Zeiträume hinweg, die verschiedene Roboterplattformen, Aufgaben und sich ändernde Objektverteilungen umfasst. Obwohl Vision-Language-Action-Modelle eine starke Generalisierungsfähigkeit demonstriert haben, bleiben sie grundsätzlich reaktiv. Indem sie die nächste Aktion basierend auf der aktuellen Beobachtung optimieren, ohne potenzielle Zukunftsverläufe zu bewerten, sind sie anfällig für die sich aufschaukelnden Fehlermodi langfristiger Aufgaben. Cortex 2.0 wechselt von reaktiver Steuerung zu einem Planen-und-Ausführen-Ansatz, indem es zukünftige Trajektorien im visuellen latenten Raum generiert, diese hinsichtlich ihrer voraussichtlichen Erfolgswahrscheinlichkeit und Effizienz bewertet und sich erst dann für die beste Kandidatentrajektorie entscheidet. Wir evaluieren Cortex 2.0 auf einer Einzel- und einer Zweiarm-Manipulationsplattform mit vier Aufgaben steigender Komplexität: Pick-and-Place, Sortieren von Gegenständen und Abfall, Schraubensortierung und das Auspacken eines Schuhkartons. Cortex 2.0 übertrifft durchgängig state-of-the-art Vision-Language-Action-Baselines und erzielt in allen Aufgaben die besten Ergebnisse. Das System bleibt in unstrukturierten Umgebungen zuverlässig, die durch starke Unordnung, häufige Verdeckungen und kontaktintensive Manipulationen gekennzeichnet sind – Umgebungen, in denen reaktive Strategien versagen. Diese Ergebnisse demonstrieren, dass weltmodellbasierte Planung zuverlässig in komplexen industriellen Umgebungen operieren kann.

English

Industrial robotic manipulation demands reliable long-horizon execution across embodiments, tasks, and changing object distributions. While Vision-Language-Action models have demonstrated strong generalization, they remain fundamentally reactive. By optimizing the next action given the current observation without evaluating potential futures, they are brittle to the compounding failure modes of long-horizon tasks. Cortex 2.0 shifts from reactive control to plan-and-act by generating candidate future trajectories in visual latent space, scoring them for expected success and efficiency, then committing only to the highest-scoring candidate. We evaluate Cortex 2.0 on a single-arm and dual-arm manipulation platform across four tasks of increasing complexity: pick and place, item and trash sorting, screw sorting, and shoebox unpacking. Cortex 2.0 consistently outperforms state-of-the-art Vision-Language-Action baselines, achieving the best results across all tasks. The system remains reliable in unstructured environments characterized by heavy clutter, frequent occlusions, and contact-rich manipulation, where reactive policies fail. These results demonstrate that world-model-based planning can operate reliably in complex industrial environments.

Cortex 2.0: Verankerung von Weltmodellen im realen industriellen Einsatz

Cortex 2.0: Grounding World Models in Real-World Industrial Deployment

Zusammenfassung

Support