WEAVER, Beter, Sneller, Langer: Een Effectief Wereldmodel voor Robotmanipulatie

Samenvatting

De potentiële impact van wereldmodellen (WMs, ofwel aangeleerde simulatoren) op robotica is verreikend: beleidsevaluatie, beleidsverbetering en planning tijdens de test – allemaal met beperkte interactie met de echte wereld. Om deze downstream-mogelijkheden te ontgrendelen, moet een WM gelijktijdig voldoen aan drie vereisten: (i) getrouwheid (d.w.z. het genereren van gesimuleerde trajecten die correleren met de werkelijkheid), (ii) consistentie (d.w.z. het genereren van gesimuleerde trajecten die coherent zijn over lange tijdshorizonten) en (iii) efficiëntie (d.w.z. het snel genereren van gesimuleerde trajecten). We stellen WEAVER (World Estimation Across Views for Embodied Reasoning) voor: een WM-architectuur die gelijktijdig aan alle drie de vereisten voldoet en state-of-the-art resultaten levert op robotmanipulatietaken. WEAVER is een multi-view WM dat is getraind om toekomstige latente variabelen en beloningswaarden te voorspellen via een stromingsafstemmingsverlies (flow-matching loss). We destilleren de belangrijkste ontwerpbeslissingen met betrekking tot modelarchitectuur, geheugen en voorspellingsdoelen die nodig zijn om de soort langdurige dynamische manipulatietaken te ontgrendelen die eerdere wereldmodelbenaderingen hebben verward. We passen WEAVER toe op robotica-hardware en tonen de effectiviteit aan bij beleidsevaluatie (ρ=0,870 correlatie met succespercentage in de echte wereld), beleidsverbetering (38% verbetering van het succespercentage in de echte wereld bovenop het π_{0.5} robotfundamentmodel) en planning tijdens de test (14% verbetering van het succespercentage in de echte wereld met een 5-10x versnelling ten opzichte van eerdere WMs). WEAVER presteert ook beter dan eerdere WMs bij evaluatie op out-of-distribution-scenario's. Code, modellen en video's op: https://arnavkj1995.github.io/WEAVER/ .

English

The potential impacts of world models (WMs, i.e., learned simulators) on robotics are far-reaching -- policy evaluation, policy improvement, and test-time planning -- all with limited real-world interaction. To unlock these downstream capabilities, a WM needs to jointly satisfy three desiderata: (i) fidelity (i.e., producing simulated trajectories that correlate with reality), (ii) consistency (i.e., producing simulated trajectories that are coherent over long horizons), and (iii) efficiency (i.e., producing simulated trajectories quickly). We propose WEAVER (World Estimation Across Views for Embodied Reasoning): a WM architecture that simultaneously achieves all three desiderata, providing state-of-the-art results on robotic manipulation tasks. WEAVER is a multi-view WM trained to predict future latents and reward values via a flow-matching loss. We distill the key design decisions across model architecture, memory, and prediction objectives required to unlock the kinds of long-horizon dynamic manipulation tasks that have confounded prior world modeling approaches. We apply WEAVER in robotic hardware, demonstrating its effectiveness at policy evaluation (ρ=0.870 correlation with real-world success rate), policy improvement (real-world success rate improvement of 38% on top of the π_{0.5} robot foundation model), and test-time planning (real-world success rate improvement of 14% with a 5-10times speedup over prior WMs). WEAVER also demonstrates better performance than prior WMs when evaluated on out-of-distribution scenarios. Code, models, and videos at: https://arnavkj1995.github.io/WEAVER/ .