StressDream: Steuerung von Videoweltmodellen für robuste Politikbewertung und -verbesserung

Zusammenfassung

Videoweltmodelle (Weltmodelle) haben vielversprechende Ergebnisse bei der Policy-Bewertung und -Verbesserung gezeigt, indem sie realistische zukünftige Beobachtungen basierend auf Ego-Roboter-Aktionen imaginieren. Während Weltmodelle Verteilungen über Zukünfte modellieren können, stützen sich Policy-Bewertung und -Verbesserung typischerweise auf nominelle Imaginationen, die auswirkungsreiche Ergebnisse von Roboteraktionen übersehen können, es sei denn, es werden unverhältnismäßig viele Stichproben gezogen. Um robuste Policy-Bewertung und -Verbesserung auf Basis von Weltmodell-Imaginationen zu ermöglichen, schlagen wir StressDream vor, das Imaginationen zur Inferenzzeit hin zu auswirkungsreichen, aber plausiblen Ergebnissen lenkt, indem das anfängliche Rauschen von diffusionsbasierten Weltmodellen optimiert wird. Allerdings ist die Optimierung des hochdimensionalen Rauschens eine Herausforderung: Die Optimierung muss nuancierte, szenenabhängige Zieleignisse in generierten Videos berücksichtigen und gleich sicherstellen, dass kein verzerrungsfreies (OOD) Rauschen entsteht, das zu unplausiblen Imaginationen führt. Wir begegnen diesem Problem mit zwei komplementären Zielen: einem semantischen Ziel mit einem Vision-Language-Modell, das durch die Analyse des generierten Videos informative Gradienten liefert, und einem Plausibilitätsziel, das verhindert, dass das optimierte Rauschen in den OOD-Bereich abdriftet. Mit hochmodernen Videoweltmodellen für autonomes Fahren und Robotermanipulation zeigen wir, dass StressDream Imaginationen effektiv zu auswirkungsreichen, aber plausiblen Ergebnissen lenkt, die zur Inferenzzeit durch Text spezifiziert werden, wie etwa Aufgabenfehler, und so eine robuste Policy-Bewertung und -Verbesserung ermöglicht, indem Aktionen identifiziert werden, deren plausible Zukünfte unerwünschte Ergebnisse beinhalten. Videoresultate sind verfügbar unter https://junwon.me/StressDream/.

English

Video world models (WMs) have shown promise for policy evaluation and improvement by imagining realistic future observations conditioned on ego-robot actions. While WMs can model distributions over futures, policy evaluation and improvement typically rely on nominal imaginations, which can miss high-impact outcomes of robot actions unless prohibitively many samples are drawn. To enable robust policy evaluation and improvement over WM imaginations, we propose StressDream, which steers imaginations toward high-impact yet plausible outcomes specified at inference time by optimizing the initial noise of diffusion-based WMs. However, optimizing high-dimensional noise is challenging: the optimization must reason about nuanced, scene-dependent target events in generated videos while avoiding out-of-distribution (OOD) noise that yields implausible imaginations. We address this with two complementary objectives: a semantic objective with a Vision-Language Model that provides informative gradients by reasoning about the generated video, and a plausibility objective that prevents the optimized noise from drifting OOD. With state-of-the-art video world models for autonomous driving and robotic manipulation, we show that StressDream effectively steers imaginations toward high-impact yet plausible outcomes specified by text at inference time, such as task failures, enabling robust policy evaluation and improvement by identifying actions whose plausible futures include undesirable outcomes. Video results are available at https://junwon.me/StressDream/.