StressDream: Direcionando Modelos de Mundo em Vídeo para Avaliação e Melhoria Robustas de Políticas

Resumo

Modelos mundiais de vídeo (MMs) têm demonstrado potencial para avaliação e melhoria de políticas ao imaginar observações futuras realistas condicionadas a ações do robô-ego. Embora MMs possam modelar distribuições sobre futuros, a avaliação e melhoria de políticas geralmente dependem de imaginações nominais, que podem perder resultados de alto impacto das ações do robô, a menos que um número proibitivo de amostras seja obtido. Para possibilitar uma avaliação e melhoria robustas de políticas sobre imaginações de MMs, propomos o StressDream, que direciona as imaginações para resultados de alto impacto e plausíveis, especificados no momento da inferência, otimizando o ruído inicial de MMs baseados em difusão. No entanto, otimizar ruídos de alta dimensão é desafiador: a otimização deve raciocinar sobre eventos-alvo matizados e dependentes da cena em vídeos gerados, evitando ruídos fora da distribuição (OOD) que produzem imaginações implausíveis. Abordamos isso com dois objetivos complementares: um objetivo semântico com um Modelo de Visão e Linguagem que fornece gradientes informativos ao raciocinar sobre o vídeo gerado, e um objetivo de plausibilidade que impede que o ruído otimizado se desvie da distribuição. Com modelos mundiais de vídeo de última geração para direção autônoma e manipulação robótica, mostramos que o StressDream direciona efetivamente as imaginações para resultados de alto impacto e plausíveis, especificados por texto no momento da inferência, como falhas de tarefas, possibilitando uma avaliação e melhoria robustas de políticas ao identificar ações cujos futuros plausíveis incluem resultados indesejáveis. Resultados em vídeo estão disponíveis em https://junwon.me/StressDream/.

English

Video world models (WMs) have shown promise for policy evaluation and improvement by imagining realistic future observations conditioned on ego-robot actions. While WMs can model distributions over futures, policy evaluation and improvement typically rely on nominal imaginations, which can miss high-impact outcomes of robot actions unless prohibitively many samples are drawn. To enable robust policy evaluation and improvement over WM imaginations, we propose StressDream, which steers imaginations toward high-impact yet plausible outcomes specified at inference time by optimizing the initial noise of diffusion-based WMs. However, optimizing high-dimensional noise is challenging: the optimization must reason about nuanced, scene-dependent target events in generated videos while avoiding out-of-distribution (OOD) noise that yields implausible imaginations. We address this with two complementary objectives: a semantic objective with a Vision-Language Model that provides informative gradients by reasoning about the generated video, and a plausibility objective that prevents the optimized noise from drifting OOD. With state-of-the-art video world models for autonomous driving and robotic manipulation, we show that StressDream effectively steers imaginations toward high-impact yet plausible outcomes specified by text at inference time, such as task failures, enabling robust policy evaluation and improvement by identifying actions whose plausible futures include undesirable outcomes. Video results are available at https://junwon.me/StressDream/.