WEAVER, Besser, Schneller, Länger: Ein effektives Weltmodell für robotische Manipulation

Zusammenfassung

Die potenziellen Auswirkungen von Weltmodellen (WMs, d. h. erlernten Simulatoren) auf die Robotik sind weitreichend – Politikevaluierung, Politikverbesserung und Planung zur Testzeit – alles mit begrenzter Interaktion mit der realen Welt. Um diese nachgelagerten Fähigkeiten zu erschließen, muss ein WM gleichzeitig drei Anforderungen erfüllen: (i) Treue (d. h. Erzeugung simulierter Trajektorien, die mit der Realität korrelieren), (ii) Konsistenz (d. h. Erzeugung simulierter Trajektorien, die über lange Horizonte kohärent sind) und (iii) Effizienz (d. h. schnelle Erzeugung simulierter Trajektorien). Wir stellen WEAVER (World Estimation Across Views for Embodied Reasoning) vor: eine WM-Architektur, die alle drei Anforderungen gleichzeitig erfüllt und Spitzenergebnisse bei robotischen Manipulationsaufgaben liefert. WEAVER ist ein Multi-View-WM, das darauf trainiert wird, zukünftige latente Größen und Belohnungswerte mittels eines Flow-Matching-Verlusts vorherzusagen. Wir destillieren die wichtigen Designentscheidungen hinsichtlich Modellarchitektur, Speicher und Vorhersagezielen, die erforderlich sind, um die Art von dynamischen Manipulationsaufgaben mit langem Horizont zu erschließen, die bisherige Weltmodellierungsansätze verwirrt haben. Wir wenden WEAVER auf Robotikhardware an und demonstrieren seine Wirksamkeit bei der Politikevaluierung (ρ=0,870 Korrelation mit der realen Erfolgsrate), der Politikverbesserung (reale Erfolgsratensteigerung von 38 % auf Basis des Robotergrundmodells π_{0.5}) und der Planung zur Testzeit (reale Erfolgsratensteigerung von 14 % mit einer 5- bis 10-fachen Beschleunigung gegenüber früheren WMs). WEAVER zeigt auch eine bessere Leistung als frühere WMs, wenn es auf Out-of-Distribution-Szenarien evaluiert wird. Code, Modelle und Videos unter: https://arnavkj1995.github.io/WEAVER/ .

English

The potential impacts of world models (WMs, i.e., learned simulators) on robotics are far-reaching -- policy evaluation, policy improvement, and test-time planning -- all with limited real-world interaction. To unlock these downstream capabilities, a WM needs to jointly satisfy three desiderata: (i) fidelity (i.e., producing simulated trajectories that correlate with reality), (ii) consistency (i.e., producing simulated trajectories that are coherent over long horizons), and (iii) efficiency (i.e., producing simulated trajectories quickly). We propose WEAVER (World Estimation Across Views for Embodied Reasoning): a WM architecture that simultaneously achieves all three desiderata, providing state-of-the-art results on robotic manipulation tasks. WEAVER is a multi-view WM trained to predict future latents and reward values via a flow-matching loss. We distill the key design decisions across model architecture, memory, and prediction objectives required to unlock the kinds of long-horizon dynamic manipulation tasks that have confounded prior world modeling approaches. We apply WEAVER in robotic hardware, demonstrating its effectiveness at policy evaluation (ρ=0.870 correlation with real-world success rate), policy improvement (real-world success rate improvement of 38% on top of the π_{0.5} robot foundation model), and test-time planning (real-world success rate improvement of 14% with a 5-10times speedup over prior WMs). WEAVER also demonstrates better performance than prior WMs when evaluated on out-of-distribution scenarios. Code, models, and videos at: https://arnavkj1995.github.io/WEAVER/ .