VideoGrain: Модулирование пространственно-временного внимания для многоуровневого видео-редактированияVideoGrain: Modulating Space-Time Attention for Multi-grained Video
Editing
Недавние достижения в моделях диффузии значительно улучшили возможности генерации и редактирования видео. Однако многозернистое редактирование видео, которое включает в себя модификации на уровне класса, экземпляра и части, остается серьезным вызовом. Основные трудности в многозернистом редактировании включают семантическое несоответствие управления текстом к региону и связывание признаков в модели диффузии. Для решения этих трудностей мы представляем VideoGrain, подход с нулевой настройкой, который модулирует пространственно-временные механизмы внимания (перекрестные и собственные) для достижения тонкого контроля над содержимым видео. Мы улучшаем управление текстом к региону, усиливая внимание к каждому локальному подсказыванию к его соответствующему пространственно-разделенному региону, минимизируя взаимодействия с нерелевантными областями в перекрестном внимании. Кроме того, мы улучшаем разделение признаков путем увеличения осведомленности внутри региона и уменьшения межрегиональных помех в собственном внимании. Обширные эксперименты демонстрируют, что наш метод достигает передовой производительности в реальных сценариях. Наш код, данные и демонстрации доступны по адресу https://knightyxp.github.io/VideoGrain_project_page/