StressDream: Dirigiendo Modelos de Mundo de Video para una Evaluación y Mejora Robustas de Políticas

Resumen

Los modelos del mundo (WMs) basados en video han mostrado potencial para la evaluación y mejora de políticas al imaginar resultados futuros realistas condicionados a las acciones del robot-ego. Si bien los WMs pueden modelar distribuciones sobre futuros, la evaluación y mejora de políticas típicamente dependen de imaginaciones nominales, que pueden pasar por alto resultados de alto impacto de las acciones del robot a menos que se extraigan una cantidad prohibitiva de muestras. Para permitir una evaluación y mejora robusta de políticas sobre las imaginaciones de los WMs, proponemos StressDream, que dirige las imaginaciones hacia resultados de alto impacto pero plausibles, especificados en tiempo de inferencia mediante la optimización del ruido inicial de los WMs basados en difusión. Sin embargo, optimizar ruido de alta dimensión es desafiante: la optimización debe razonar sobre eventos objetivo sutiles y dependientes de la escena en videos generados, mientras evita ruido fuera de distribución (OOD) que produce imaginaciones implausibles. Abordamos esto con dos objetivos complementarios: un objetivo semántico con un modelo de visión y lenguaje que proporciona gradientes informativos al razonar sobre el video generado, y un objetivo de plausibilidad que evita que el ruido optimizado se desvíe hacia OOD. Con modelos del mundo de video de última generación para conducción autónoma y manipulación robótica, mostramos que StressDream dirige efectivamente las imaginaciones hacia resultados de alto impacto pero plausibles especificados por texto en tiempo de inferencia, como fallos en tareas, permitiendo una evaluación y mejora robusta de políticas al identificar acciones cuyos futuros plausibles incluyen resultados no deseados. Los resultados en video están disponibles en https://junwon.me/StressDream/.

English

Video world models (WMs) have shown promise for policy evaluation and improvement by imagining realistic future observations conditioned on ego-robot actions. While WMs can model distributions over futures, policy evaluation and improvement typically rely on nominal imaginations, which can miss high-impact outcomes of robot actions unless prohibitively many samples are drawn. To enable robust policy evaluation and improvement over WM imaginations, we propose StressDream, which steers imaginations toward high-impact yet plausible outcomes specified at inference time by optimizing the initial noise of diffusion-based WMs. However, optimizing high-dimensional noise is challenging: the optimization must reason about nuanced, scene-dependent target events in generated videos while avoiding out-of-distribution (OOD) noise that yields implausible imaginations. We address this with two complementary objectives: a semantic objective with a Vision-Language Model that provides informative gradients by reasoning about the generated video, and a plausibility objective that prevents the optimized noise from drifting OOD. With state-of-the-art video world models for autonomous driving and robotic manipulation, we show that StressDream effectively steers imaginations toward high-impact yet plausible outcomes specified by text at inference time, such as task failures, enabling robust policy evaluation and improvement by identifying actions whose plausible futures include undesirable outcomes. Video results are available at https://junwon.me/StressDream/.