StressDream : Pilotage de modèles du monde vidéo pour l'évaluation et l'amélioration robustes des politiques.

Résumé

Les modèles de monde vidéo (WMs) ont montré leur potentiel pour l'évaluation et l'amélioration des politiques en imaginant des observations futures réalistes conditionnées par les actions du robot-ego. Bien que les WMs puissent modéliser des distributions sur les futurs, l'évaluation et l'amélioration des politiques reposent généralement sur des imaginations nominales, qui peuvent omettre les résultats à fort impact des actions du robot, à moins qu'un nombre prohibitif d'échantillons ne soit tiré. Pour permettre une évaluation et une amélioration robustes des politiques à partir des imaginations des WMs, nous proposons StressDream, qui oriente les imaginations vers des résultats à fort impact mais plausibles, spécifiés au moment de l'inférence en optimisant le bruit initial des WMs basés sur la diffusion. Cependant, l'optimisation du bruit de haute dimension est difficile : l'optimisation doit raisonner sur des événements cibles nuancés et dépendants de la scène dans les vidéos générées tout en évitant un bruit hors distribution (OOD) qui produit des imaginations invraisemblables. Nous abordons cela avec deux objectifs complémentaires : un objectif sémantique avec un modèle Vision-Langage qui fournit des gradients informatifs en raisonnant sur la vidéo générée, et un objectif de plausibilité qui empêche le bruit optimisé de dériver hors distribution. Avec des modèles de monde vidéo de pointe pour la conduite autonome et la manipulation robotique, nous montrons que StressDream oriente efficacement les imaginations vers des résultats à fort impact mais plausibles spécifiés par du texte au moment de l'inférence, tels que des échecs de tâches, permettant une évaluation et une amélioration robustes des politiques en identifiant les actions dont les futurs plausibles incluent des issues indésirables. Les résultats vidéo sont disponibles à l'adresse https://junwon.me/StressDream/.

English

Video world models (WMs) have shown promise for policy evaluation and improvement by imagining realistic future observations conditioned on ego-robot actions. While WMs can model distributions over futures, policy evaluation and improvement typically rely on nominal imaginations, which can miss high-impact outcomes of robot actions unless prohibitively many samples are drawn. To enable robust policy evaluation and improvement over WM imaginations, we propose StressDream, which steers imaginations toward high-impact yet plausible outcomes specified at inference time by optimizing the initial noise of diffusion-based WMs. However, optimizing high-dimensional noise is challenging: the optimization must reason about nuanced, scene-dependent target events in generated videos while avoiding out-of-distribution (OOD) noise that yields implausible imaginations. We address this with two complementary objectives: a semantic objective with a Vision-Language Model that provides informative gradients by reasoning about the generated video, and a plausibility objective that prevents the optimized noise from drifting OOD. With state-of-the-art video world models for autonomous driving and robotic manipulation, we show that StressDream effectively steers imaginations toward high-impact yet plausible outcomes specified by text at inference time, such as task failures, enabling robust policy evaluation and improvement by identifying actions whose plausible futures include undesirable outcomes. Video results are available at https://junwon.me/StressDream/.