ChatPaper.aiChatPaper

Целеориентированные модели видеодиффузии

Target-Aware Video Diffusion Models

March 24, 2025
Авторы: Taeksoo Kim, Hanbyul Joo
cs.AI

Аннотация

Мы представляем целенаправленную видео-диффузионную модель, которая генерирует видео на основе входного изображения, где актор взаимодействует с указанной целью, выполняя желаемое действие. Цель задается с помощью маски сегментации, а желаемое действие описывается текстовым запросом. В отличие от существующих управляемых моделей для преобразования изображения в видео, которые часто полагаются на плотные структурные или динамические подсказки для направления движений актора к цели, наша целенаправленная модель требует только простой маски для указания цели, используя обобщающие способности предварительно обученных моделей для создания правдоподобных действий. Это делает наш метод особенно эффективным для сценариев взаимодействия человека с объектом (HOI), где предоставление точных указаний на действия является сложной задачей, и дополнительно позволяет использовать видео-диффузионные модели для высокоуровневого планирования действий в таких приложениях, как робототехника. Мы создаем нашу целенаправленную модель, расширяя базовую модель для включения маски цели в качестве дополнительного входного параметра. Для обеспечения осведомленности о цели мы вводим специальный токен, который кодирует пространственную информацию цели в текстовом запросе. Затем мы дообучаем модель на нашем специально подготовленном наборе данных, используя новую функцию потерь на основе кросс-внимания, которая выравнивает карты кросс-внимания, связанные с этим токеном, с входной маской цели. Для дальнейшего повышения производительности мы выборочно применяем эту функцию потерь к наиболее семантически значимым блокам трансформеров и областям внимания. Экспериментальные результаты показывают, что наша целенаправленная модель превосходит существующие решения в генерации видео, где акторы точно взаимодействуют с указанными целями. Мы также демонстрируем ее эффективность в двух прикладных задачах: создании видеоконтента и синтезе 3D-движений для взаимодействия человека с объектом в условиях нулевого обучения.
English
We present a target-aware video diffusion model that generates videos from an input image in which an actor interacts with a specified target while performing a desired action. The target is defined by a segmentation mask and the desired action is described via a text prompt. Unlike existing controllable image-to-video diffusion models that often rely on dense structural or motion cues to guide the actor's movements toward the target, our target-aware model requires only a simple mask to indicate the target, leveraging the generalization capabilities of pretrained models to produce plausible actions. This makes our method particularly effective for human-object interaction (HOI) scenarios, where providing precise action guidance is challenging, and further enables the use of video diffusion models for high-level action planning in applications such as robotics. We build our target-aware model by extending a baseline model to incorporate the target mask as an additional input. To enforce target awareness, we introduce a special token that encodes the target's spatial information within the text prompt. We then fine-tune the model with our curated dataset using a novel cross-attention loss that aligns the cross-attention maps associated with this token with the input target mask. To further improve performance, we selectively apply this loss to the most semantically relevant transformer blocks and attention regions. Experimental results show that our target-aware model outperforms existing solutions in generating videos where actors interact accurately with the specified targets. We further demonstrate its efficacy in two downstream applications: video content creation and zero-shot 3D HOI motion synthesis.

Summary

AI-Generated Summary

PDF52April 3, 2025