FlexiAct: в направлении гибкого управления действиями в гетерогенных сценариях
FlexiAct: Towards Flexible Action Control in Heterogeneous Scenarios
May 6, 2025
Авторы: Shiyi Zhang, Junhao Zhuang, Zhaoyang Zhang, Ying Shan, Yansong Tang
cs.AI
Аннотация
Настройка действий предполагает создание видео, в которых объект выполняет действия, заданные входными управляющими сигналами. Современные методы используют настройку на основе поз или глобального движения, но ограничены строгими требованиями к пространственной структуре, такими как компоновка, скелет и согласованность точки зрения, что снижает адаптивность для различных объектов и сценариев. Чтобы преодолеть эти ограничения, мы предлагаем FlexiAct, который переносит действия из эталонного видео на произвольное целевое изображение. В отличие от существующих методов, FlexiAct допускает вариации в компоновке, точке зрения и структуре скелета между объектом эталонного видео и целевым изображением, сохраняя при этом идентичность. Для достижения этого требуется точное управление действиями, адаптация пространственной структуры и сохранение согласованности. С этой целью мы представляем RefAdapter — легковесный адаптер, управляемый изображением, который превосходит существующие методы в балансировке согласованности внешнего вида и структурной гибкости. Кроме того, на основе наших наблюдений, процесс удаления шума демонстрирует различный уровень внимания к движению (низкая частота) и деталям внешнего вида (высокая частота) на разных временных шагах. Поэтому мы предлагаем FAE (Frequency-aware Action Extraction), который, в отличие от существующих методов, использующих раздельные пространственно-временные архитектуры, непосредственно извлекает действия в процессе удаления шума. Эксперименты показывают, что наш метод эффективно переносит действия на объекты с различной компоновкой, скелетом и точками зрения. Мы публикуем наш код и веса модели для поддержки дальнейших исследований на https://shiyi-zh0408.github.io/projectpages/FlexiAct/.
English
Action customization involves generating videos where the subject performs
actions dictated by input control signals. Current methods use pose-guided or
global motion customization but are limited by strict constraints on spatial
structure, such as layout, skeleton, and viewpoint consistency, reducing
adaptability across diverse subjects and scenarios. To overcome these
limitations, we propose FlexiAct, which transfers actions from a reference
video to an arbitrary target image. Unlike existing methods, FlexiAct allows
for variations in layout, viewpoint, and skeletal structure between the subject
of the reference video and the target image, while maintaining identity
consistency. Achieving this requires precise action control, spatial structure
adaptation, and consistency preservation. To this end, we introduce RefAdapter,
a lightweight image-conditioned adapter that excels in spatial adaptation and
consistency preservation, surpassing existing methods in balancing appearance
consistency and structural flexibility. Additionally, based on our
observations, the denoising process exhibits varying levels of attention to
motion (low frequency) and appearance details (high frequency) at different
timesteps. So we propose FAE (Frequency-aware Action Extraction), which, unlike
existing methods that rely on separate spatial-temporal architectures, directly
achieves action extraction during the denoising process. Experiments
demonstrate that our method effectively transfers actions to subjects with
diverse layouts, skeletons, and viewpoints. We release our code and model
weights to support further research at
https://shiyi-zh0408.github.io/projectpages/FlexiAct/Summary
AI-Generated Summary