StressDream: Направление видеомировых моделей для надежной оценки и улучшения политики

Аннотация

Видео-мировые модели (WMs) продемонстрировали перспективность для оценки и улучшения политик путем воображения реалистичных будущих наблюдений, обусловленных действиями эго-робота. Хотя WMs могут моделировать распределения будущих состояний, оценка и улучшение политик обычно опираются на номинальные воображения, что может упускать высоковлиятельные исходы действий робота, если не использовать чрезмерно большое количество выборок. Для обеспечения робастной оценки и улучшения политик на основе воображений WMs мы предлагаем StressDream, который направляет воображения к высоковлиятельным, но правдоподобным исходам, задаваемым во время инференса, путем оптимизации начального шума диффузионных WMs. Однако оптимизация многомерного шума сложна: оптимизация должна учитывать нюансы целевых событий, зависящих от сцены, в генерируемых видео, избегая при этом выхода за пределы распределения (OOD) шума, дающего неправдоподобные воображения. Мы решаем эту проблему с помощью двух взаимодополняющих целей: семантической цели с визуально-языковой моделью, которая предоставляет информативные градиенты, рассуждая о сгенерированном видео, и цели правдоподобия, предотвращающей дрейф оптимизированного шума в OOD. Используя современные видео-мировые модели для автономного вождения и роботизированных манипуляций, мы показываем, что StressDream эффективно направляет воображения к высоковлиятельным, но правдоподобным исходам, задаваемым текстом во время инференса, таким как сбои задач, что позволяет проводить робастную оценку и улучшение политик путем выявления действий, чьи правдоподобные будущие состояния включают нежелательные исходы. Видео-результаты доступны по адресу https://junwon.me/StressDream/.

English

Video world models (WMs) have shown promise for policy evaluation and improvement by imagining realistic future observations conditioned on ego-robot actions. While WMs can model distributions over futures, policy evaluation and improvement typically rely on nominal imaginations, which can miss high-impact outcomes of robot actions unless prohibitively many samples are drawn. To enable robust policy evaluation and improvement over WM imaginations, we propose StressDream, which steers imaginations toward high-impact yet plausible outcomes specified at inference time by optimizing the initial noise of diffusion-based WMs. However, optimizing high-dimensional noise is challenging: the optimization must reason about nuanced, scene-dependent target events in generated videos while avoiding out-of-distribution (OOD) noise that yields implausible imaginations. We address this with two complementary objectives: a semantic objective with a Vision-Language Model that provides informative gradients by reasoning about the generated video, and a plausibility objective that prevents the optimized noise from drifting OOD. With state-of-the-art video world models for autonomous driving and robotic manipulation, we show that StressDream effectively steers imaginations toward high-impact yet plausible outcomes specified by text at inference time, such as task failures, enabling robust policy evaluation and improvement by identifying actions whose plausible futures include undesirable outcomes. Video results are available at https://junwon.me/StressDream/.