Cortex 2.0: Основание мировых моделей на реальном промышленном внедрении

Аннотация

Промышленная роботизированная манипуляция требует надежного выполнения задач в долгосрочной перспективе для различных конструкций роботов, задач и изменяющихся распределений объектов. Хотя модели "Vision-Language-Action" (VLA) продемонстрировали хорошую обобщающую способность, они остаются по своей сути реактивными. Оптимизируя следующее действие на основе текущего наблюдения без оценки потенциальных будущих состояний, они оказываются уязвимыми к накоплению ошибок в многоэтапных задачах. Cortex 2.0 переходит от реактивного управления к парадигме "планируй-и-действу", генерируя кандидатные будущие траектории в визуальном латентном пространстве, оценивая их по ожидаемой успешности и эффективности, и выполняя только кандидата с наивысшим баллом. Мы оцениваем Cortex 2.0 на платформах манипулирования с одним и двумя манипуляторами в четырех задачах возрастающей сложности: pick-and-place, сортировка предметов и мусора, сортировка винтов и распаковка обувной коробки. Cortex 2.0 стабильно превосходит современные VLA-базисы, достигая наилучших результатов по всем задачам. Система сохраняет надежность в неструктурированных средах, характеризующихся сильным беспорядком, частыми окклюзиями и манипуляциями с интенсивным контактом, где реактивные политики терпят неудачу. Эти результаты демонстрируют, что планирование на основе моделей мира может надежно функционировать в сложных промышленных условиях.

English

Industrial robotic manipulation demands reliable long-horizon execution across embodiments, tasks, and changing object distributions. While Vision-Language-Action models have demonstrated strong generalization, they remain fundamentally reactive. By optimizing the next action given the current observation without evaluating potential futures, they are brittle to the compounding failure modes of long-horizon tasks. Cortex 2.0 shifts from reactive control to plan-and-act by generating candidate future trajectories in visual latent space, scoring them for expected success and efficiency, then committing only to the highest-scoring candidate. We evaluate Cortex 2.0 on a single-arm and dual-arm manipulation platform across four tasks of increasing complexity: pick and place, item and trash sorting, screw sorting, and shoebox unpacking. Cortex 2.0 consistently outperforms state-of-the-art Vision-Language-Action baselines, achieving the best results across all tasks. The system remains reliable in unstructured environments characterized by heavy clutter, frequent occlusions, and contact-rich manipulation, where reactive policies fail. These results demonstrate that world-model-based planning can operate reliably in complex industrial environments.

Cortex 2.0: Основание мировых моделей на реальном промышленном внедрении

Cortex 2.0: Grounding World Models in Real-World Industrial Deployment

Аннотация

Support