WEAVER, Лучше, Быстрее, Дольше: Эффективная модель мира для роботизированного манипулирования

Аннотация

Потенциальное воздействие моделей мира (ММ, т.е. обученных симуляторов) на робототехнику весьма широко — оценка политики, улучшение политики и планирование во время тестирования, причем с ограниченным взаимодействием с реальным миром. Чтобы реализовать эти прикладные возможности, модель мира должна одновременно удовлетворять трём требованиям: (i) достоверность (т.е. генерация симулированных траекторий, коррелирующих с реальностью), (ii) согласованность (т.е. генерация симулированных траекторий, когерентных на длинных горизонтах) и (iii) эффективность (т.е. быстрая генерация симулированных траекторий). Мы предлагаем WEAVER (World Estimation Across Views for Embodied Reasoning) — архитектуру модели мира, которая одновременно достигает всех трёх критериев, обеспечивая передовые результаты в задачах роботизированного манипулирования. WEAVER — это многовидовая модель мира, обученная предсказывать будущие латентные представления и значения вознаграждения с помощью функции потерь, основанной на согласовании потоков. Мы выделяем ключевые проектные решения в отношении архитектуры модели, памяти и целевых функций предсказания, необходимые для решения задач долгосрочного динамического манипулирования, которые ранее ставили в тупик подходы к моделированию мира. Мы применяем WEAVER в роботизированном оборудовании, демонстрируя его эффективность в оценке политики (корреляция ρ=0,870 с показателем успешности в реальном мире), улучшении политики (повышение показателя успешности в реальном мире на 38% поверх фундаментальной модели робота π_{0,5}) и планировании во время тестирования (повышение показателя успешности в реальном мире на 14% с ускорением в 5–10 раз по сравнению с предыдущими ММ). WEAVER также показывает лучшую производительность, чем предыдущие ММ, при оценке в сценариях вне распределения. Код, модели и видео: https://arnavkj1995.github.io/WEAVER/ .

English

The potential impacts of world models (WMs, i.e., learned simulators) on robotics are far-reaching -- policy evaluation, policy improvement, and test-time planning -- all with limited real-world interaction. To unlock these downstream capabilities, a WM needs to jointly satisfy three desiderata: (i) fidelity (i.e., producing simulated trajectories that correlate with reality), (ii) consistency (i.e., producing simulated trajectories that are coherent over long horizons), and (iii) efficiency (i.e., producing simulated trajectories quickly). We propose WEAVER (World Estimation Across Views for Embodied Reasoning): a WM architecture that simultaneously achieves all three desiderata, providing state-of-the-art results on robotic manipulation tasks. WEAVER is a multi-view WM trained to predict future latents and reward values via a flow-matching loss. We distill the key design decisions across model architecture, memory, and prediction objectives required to unlock the kinds of long-horizon dynamic manipulation tasks that have confounded prior world modeling approaches. We apply WEAVER in robotic hardware, demonstrating its effectiveness at policy evaluation (ρ=0.870 correlation with real-world success rate), policy improvement (real-world success rate improvement of 38% on top of the π_{0.5} robot foundation model), and test-time planning (real-world success rate improvement of 14% with a 5-10times speedup over prior WMs). WEAVER also demonstrates better performance than prior WMs when evaluated on out-of-distribution scenarios. Code, models, and videos at: https://arnavkj1995.github.io/WEAVER/ .