Cortex 2.0: Fundamentando Modelos Mundiais na Implantação Industrial do Mundo Real

Resumo

A manipulação robótica industrial exige execução confiável de longo horizonte entre diferentes embodimentos, tarefas e distribuições de objetos em mudança. Embora os modelos Visão-Linguagem-Ação tenham demonstrado forte generalização, eles permanecem fundamentalmente reativos. Ao otimizar a próxima ação dada a observação atual sem avaliar futuros potenciais, eles são frágeis aos modos de falha cumulativos de tarefas de longo horizonte. O Cortex 2.0 muda do controle reativo para um paradigma de planejar-e-agir, gerando trajetórias futuras candidatas no espaço latente visual, classificando-as quanto ao sucesso e eficiência esperados, e comprometendo-se apenas com o candidato de maior pontuação. Avaliamos o Cortex 2.0 em uma plataforma de manipulação de braço único e de braço duplo em quatro tarefas de complexidade crescente: pegar e colocar, triagem de itens e lixo, triagem de parafusos e desempacotamento de caixa de sapatos. O Cortex 2.0 supera consistentemente os modelos de base state-of-the-art de Visão-Linguagem-Ação, alcançando os melhores resultados em todas as tarefas. O sistema mantém-se confiável em ambientes não estruturados caracterizados por desordem pesada, oclusões frequentes e manipulação rica em contacto, onde políticas reativas falham. Estes resultados demonstram que o planeamento baseado em modelos do mundo pode operar de forma confiável em ambientes industriais complexos.

English

Industrial robotic manipulation demands reliable long-horizon execution across embodiments, tasks, and changing object distributions. While Vision-Language-Action models have demonstrated strong generalization, they remain fundamentally reactive. By optimizing the next action given the current observation without evaluating potential futures, they are brittle to the compounding failure modes of long-horizon tasks. Cortex 2.0 shifts from reactive control to plan-and-act by generating candidate future trajectories in visual latent space, scoring them for expected success and efficiency, then committing only to the highest-scoring candidate. We evaluate Cortex 2.0 on a single-arm and dual-arm manipulation platform across four tasks of increasing complexity: pick and place, item and trash sorting, screw sorting, and shoebox unpacking. Cortex 2.0 consistently outperforms state-of-the-art Vision-Language-Action baselines, achieving the best results across all tasks. The system remains reliable in unstructured environments characterized by heavy clutter, frequent occlusions, and contact-rich manipulation, where reactive policies fail. These results demonstrate that world-model-based planning can operate reliably in complex industrial environments.

Cortex 2.0: Fundamentando Modelos Mundiais na Implantação Industrial do Mundo Real

Cortex 2.0: Grounding World Models in Real-World Industrial Deployment

Resumo

Support