WEAVER: Mejor, Más Rápido, Más Duradero: Un modelo de mundo efectivo para la manipulación robótica

Resumen

Los posibles impactos de los modelos del mundo (WMs, por sus siglas en inglés, simuladores aprendidos) en robótica son de gran alcance: evaluación de políticas, mejora de políticas y planificación en tiempo de prueba, todo ello con una interacción limitada con el mundo real. Para desbloquear estas capacidades posteriores, un WM debe satisfacer conjuntamente tres desiderata: (i) fidelidad (es decir, producir trayectorias simuladas que se correlacionen con la realidad), (ii) consistencia (es decir, producir trayectorias simuladas coherentes a lo largo de horizontes largos) y (iii) eficiencia (es decir, producir trayectorias simuladas rápidamente). Proponemos WEAVER (Estimación Mundial a través de Vistas para Razonamiento Corporizado): una arquitectura de WM que logra simultáneamente los tres desiderata, proporcionando resultados de vanguardia en tareas de manipulación robótica. WEAVER es un WM multivista entrenado para predecir latentes futuros y valores de recompensa mediante una pérdida de emparejamiento de flujo. Destilamos las decisiones clave de diseño en arquitectura de modelo, memoria y objetivos de predicción necesarias para desbloquear el tipo de tareas de manipulación dinámica de largo horizonte que han desconcertado a enfoques anteriores de modelos del mundo. Aplicamos WEAVER en hardware robótico, demostrando su efectividad en evaluación de políticas (correlación ρ=0.870 con la tasa de éxito en el mundo real), mejora de políticas (mejora del 38% en la tasa de éxito en el mundo real sobre el modelo base de robot π_{0.5}) y planificación en tiempo de prueba (mejora del 14% en la tasa de éxito en el mundo real con una aceleración de 5 a 10 veces en comparación con WMs anteriores). WEAVER también demuestra un rendimiento superior al de WMs anteriores cuando se evalúa en escenarios fuera de la distribución. Código, modelos y vídeos en: https://arnavkj1995.github.io/WEAVER/ .

English

The potential impacts of world models (WMs, i.e., learned simulators) on robotics are far-reaching -- policy evaluation, policy improvement, and test-time planning -- all with limited real-world interaction. To unlock these downstream capabilities, a WM needs to jointly satisfy three desiderata: (i) fidelity (i.e., producing simulated trajectories that correlate with reality), (ii) consistency (i.e., producing simulated trajectories that are coherent over long horizons), and (iii) efficiency (i.e., producing simulated trajectories quickly). We propose WEAVER (World Estimation Across Views for Embodied Reasoning): a WM architecture that simultaneously achieves all three desiderata, providing state-of-the-art results on robotic manipulation tasks. WEAVER is a multi-view WM trained to predict future latents and reward values via a flow-matching loss. We distill the key design decisions across model architecture, memory, and prediction objectives required to unlock the kinds of long-horizon dynamic manipulation tasks that have confounded prior world modeling approaches. We apply WEAVER in robotic hardware, demonstrating its effectiveness at policy evaluation (ρ=0.870 correlation with real-world success rate), policy improvement (real-world success rate improvement of 38% on top of the π_{0.5} robot foundation model), and test-time planning (real-world success rate improvement of 14% with a 5-10times speedup over prior WMs). WEAVER also demonstrates better performance than prior WMs when evaluated on out-of-distribution scenarios. Code, models, and videos at: https://arnavkj1995.github.io/WEAVER/ .