Cortex 2.0: 현실 세계 산업 환경에 기반한 세계 모델 구축
Cortex 2.0: Grounding World Models in Real-World Industrial Deployment
April 22, 2026
저자: Adriana Aida, Walida Amer, Katarina Bankovic, Dhruv Behl, Fabian Busch, Annie Bhalla, Minh Duong, Florian Gienger, Rohan Godse, Denis Grachev, Ralf Gulde, Elisa Hagensieker, Junpeng Hu, Shivam Joshi, Tobias Knoblauch, Likith Kumar, Damien LaRocque, Keerthana Lokesh, Omar Moured, Khiem Nguyen, Christian Preyss, Ranjith Sriganesan, Vikram Singh, Carsten Sponner, Anh Tong, Dominik Tuscher, Marc Tuscher, Pavan Upputuri
cs.AI
초록
산업용 로봇 매니퓰레이션은 다양한 구현체, 작업, 변화하는 객체 분포에 걸쳐 신뢰할 수 있는 장기적 실행을 요구합니다. 비전-언어-행동 모델은 강력한 일반화 능력을 보여주었지만, 근본적으로 반응형에 머물러 있습니다. 현재 관측을 바탕으로 다음 행동을 최적화하지만 잠재적 미래를 평가하지 않기 때문에 장기적 작업에서 누적되는 실패 모드에 취약합니다. Cortex 2.0은 시각적 잠재 공간에서 향후 궤적 후보를 생성하고, 예상 성공률과 효율성을 기준으로 점수를 매긴 후, 가장 높은 점수를 받은 후보에만 실행을 확정함으로써 반응형 제어에서 계획-실행 방식으로 전환합니다. 우리는 Cortex 2.0을 단일 암 및 이중 암 매니퓰레이션 플랫폼에서 피킹 앤 플레이스, 아이템 및 쓰레기 분류, 나사 분류, 신발 상자 풀기 등 점진적으로 복잡해지는 네 가지 작업에 대해 평가했습니다. Cortex 2.0은 모든 작업에서 최고의 결과를 달성하며 최첨단 비전-언어-행동 기준 모델을 일관되게 능가했습니다. 본 시스템은 심각한 난잡함, 빈번한 폐색, 풍부한 접촉을 특징으로 하는 비정형 환경에서도 신뢰성을 유지하며, 이러한 환경에서는 반응형 정책이 실패합니다. 이러한 결과는 세계 모델 기반 계획이 복잡한 산업 환경에서도 안정적으로 작동할 수 있음을 입증합니다.
English
Industrial robotic manipulation demands reliable long-horizon execution across embodiments, tasks, and changing object distributions. While Vision-Language-Action models have demonstrated strong generalization, they remain fundamentally reactive. By optimizing the next action given the current observation without evaluating potential futures, they are brittle to the compounding failure modes of long-horizon tasks. Cortex 2.0 shifts from reactive control to plan-and-act by generating candidate future trajectories in visual latent space, scoring them for expected success and efficiency, then committing only to the highest-scoring candidate. We evaluate Cortex 2.0 on a single-arm and dual-arm manipulation platform across four tasks of increasing complexity: pick and place, item and trash sorting, screw sorting, and shoebox unpacking. Cortex 2.0 consistently outperforms state-of-the-art Vision-Language-Action baselines, achieving the best results across all tasks. The system remains reliable in unstructured environments characterized by heavy clutter, frequent occlusions, and contact-rich manipulation, where reactive policies fail. These results demonstrate that world-model-based planning can operate reliably in complex industrial environments.