StressDream: Sturen van videowereldmodellen voor robuuste beleidsevaluatie en -verbetering

Samenvatting

Videowereldmodellen (WM's) hebben potentie getoond voor beleidsevaluatie en -verbetering door realistische toekomstige observaties te verbeelden, geconditioneerd op ego-robotacties. Hoewel WM's verdelingen over toekomsten kunnen modelleren, vertrouwen beleidsevaluatie en -verbetering doorgaans op nominale verbeeldingen, die gevolgen van robotacties met grote impact kunnen missen tenzij er onbetaalbaar veel steekproeven worden getrokken. Om robuuste beleidsevaluatie en -verbetering over WM-verbeeldingen mogelijk te maken, stellen we StressDream voor, dat verbeeldingen stuurt naar impactvolle maar plausibele uitkomsten die tijdens inferentie worden gespecificeerd door de beginruis van diffusiegebaseerde WM's te optimaliseren. Het optimaliseren van hoogdimensionale ruis is echter een uitdaging: de optimalisatie moet rekening houden met genuanceerde, scèneafhankelijke doelgebeurtenissen in gegenereerde video's, terwijl buiten-distributie (OOD) ruis die leidt tot onwaarschijnlijke verbeeldingen wordt vermeden. We pakken dit aan met twee complementaire doelstellingen: een semantische doelstelling met een Visie-Taalmodel dat informatieve gradiënten levert door de gegenereerde video te beredeneren, en een plausibiliteitsdoelstelling die voorkomt dat de geoptimaliseerde ruis naar OOD afdrijft. Met state-of-the-art videowereldmodellen voor autonoom rijden en robotmanipulatie laten we zien dat StressDream verbeeldingen effectief stuurt naar impactvolle maar plausibele uitkomsten, gespecificeerd door tekst tijdens inferentie, zoals taakfalen, wat robuuste beleidsevaluatie en -verbetering mogelijk maakt door acties te identificeren waarvan de plausibele toekomsten ongewenste uitkomsten bevatten. Videoresultaten zijn beschikbaar op https://junwon.me/StressDream/.

English

Video world models (WMs) have shown promise for policy evaluation and improvement by imagining realistic future observations conditioned on ego-robot actions. While WMs can model distributions over futures, policy evaluation and improvement typically rely on nominal imaginations, which can miss high-impact outcomes of robot actions unless prohibitively many samples are drawn. To enable robust policy evaluation and improvement over WM imaginations, we propose StressDream, which steers imaginations toward high-impact yet plausible outcomes specified at inference time by optimizing the initial noise of diffusion-based WMs. However, optimizing high-dimensional noise is challenging: the optimization must reason about nuanced, scene-dependent target events in generated videos while avoiding out-of-distribution (OOD) noise that yields implausible imaginations. We address this with two complementary objectives: a semantic objective with a Vision-Language Model that provides informative gradients by reasoning about the generated video, and a plausibility objective that prevents the optimized noise from drifting OOD. With state-of-the-art video world models for autonomous driving and robotic manipulation, we show that StressDream effectively steers imaginations toward high-impact yet plausible outcomes specified by text at inference time, such as task failures, enabling robust policy evaluation and improvement by identifying actions whose plausible futures include undesirable outcomes. Video results are available at https://junwon.me/StressDream/.