WEAVER, Melhor, Mais Rápido, Mais Longo: Um Modelo de Mundo Eficaz para Manipulação Robótica

Resumo

Os impactos potenciais dos modelos de mundo (WMs, ou seja, simuladores aprendidos) na robótica são de grande alcance — avaliação de políticas, melhoria de políticas e planejamento em tempo de teste — tudo isso com interação limitada com o mundo real. Para desbloquear essas capacidades downstream, um WM precisa atender conjuntamente a três requisitos: (i) fidelidade (isto é, produzir trajetórias simuladas que se correlacionam com a realidade), (ii) consistência (isto é, produzir trajetórias simuladas que sejam coerentes ao longo de horizontes longos) e (iii) eficiência (isto é, produzir trajetórias simuladas rapidamente). Propomos o WEAVER (Estimação Mundial Através de Vistas para Raciocínio Corporificado): uma arquitetura de WM que atinge simultaneamente todos os três requisitos, fornecendo resultados de última geração em tarefas de manipulação robótica. O WEAVER é um WM multivistas treinado para prever latentes futuros e valores de recompensa por meio de uma perda de correspondência de fluxo (flow-matching loss). Destilamos as principais decisões de projeto relativas à arquitetura do modelo, memória e objetivos de previsão necessárias para desbloquear os tipos de tarefas de manipulação dinâmica de longo horizonte que têm desafiado abordagens anteriores de modelagem de mundo. Aplicamos o WEAVER em hardware robótico, demonstrando sua eficácia na avaliação de políticas (ρ=0,870 de correlação com a taxa de sucesso no mundo real), melhoria de políticas (aumento de 38% na taxa de sucesso no mundo real em relação ao modelo robótico fundamental π_{0.5}) e planejamento em tempo de teste (aumento de 14% na taxa de sucesso no mundo real com uma aceleração de 5 a 10 vezes em relação a WMs anteriores). O WEAVER também demonstra desempenho superior em comparação com WMs anteriores quando avaliado em cenários fora da distribuição. Código, modelos e vídeos em: https://arnavkj1995.github.io/WEAVER/ .

English

The potential impacts of world models (WMs, i.e., learned simulators) on robotics are far-reaching -- policy evaluation, policy improvement, and test-time planning -- all with limited real-world interaction. To unlock these downstream capabilities, a WM needs to jointly satisfy three desiderata: (i) fidelity (i.e., producing simulated trajectories that correlate with reality), (ii) consistency (i.e., producing simulated trajectories that are coherent over long horizons), and (iii) efficiency (i.e., producing simulated trajectories quickly). We propose WEAVER (World Estimation Across Views for Embodied Reasoning): a WM architecture that simultaneously achieves all three desiderata, providing state-of-the-art results on robotic manipulation tasks. WEAVER is a multi-view WM trained to predict future latents and reward values via a flow-matching loss. We distill the key design decisions across model architecture, memory, and prediction objectives required to unlock the kinds of long-horizon dynamic manipulation tasks that have confounded prior world modeling approaches. We apply WEAVER in robotic hardware, demonstrating its effectiveness at policy evaluation (ρ=0.870 correlation with real-world success rate), policy improvement (real-world success rate improvement of 38% on top of the π_{0.5} robot foundation model), and test-time planning (real-world success rate improvement of 14% with a 5-10times speedup over prior WMs). WEAVER also demonstrates better performance than prior WMs when evaluated on out-of-distribution scenarios. Code, models, and videos at: https://arnavkj1995.github.io/WEAVER/ .