FlexiAct: в направлении гибкого управления действиями в гетерогенных сценариях

Аннотация

Настройка действий предполагает создание видео, в которых объект выполняет действия, заданные входными управляющими сигналами. Современные методы используют настройку на основе поз или глобального движения, но ограничены строгими требованиями к пространственной структуре, такими как компоновка, скелет и согласованность точки зрения, что снижает адаптивность для различных объектов и сценариев. Чтобы преодолеть эти ограничения, мы предлагаем FlexiAct, который переносит действия из эталонного видео на произвольное целевое изображение. В отличие от существующих методов, FlexiAct допускает вариации в компоновке, точке зрения и структуре скелета между объектом эталонного видео и целевым изображением, сохраняя при этом идентичность. Для достижения этого требуется точное управление действиями, адаптация пространственной структуры и сохранение согласованности. С этой целью мы представляем RefAdapter — легковесный адаптер, управляемый изображением, который превосходит существующие методы в балансировке согласованности внешнего вида и структурной гибкости. Кроме того, на основе наших наблюдений, процесс удаления шума демонстрирует различный уровень внимания к движению (низкая частота) и деталям внешнего вида (высокая частота) на разных временных шагах. Поэтому мы предлагаем FAE (Frequency-aware Action Extraction), который, в отличие от существующих методов, использующих раздельные пространственно-временные архитектуры, непосредственно извлекает действия в процессе удаления шума. Эксперименты показывают, что наш метод эффективно переносит действия на объекты с различной компоновкой, скелетом и точками зрения. Мы публикуем наш код и веса модели для поддержки дальнейших исследований на https://shiyi-zh0408.github.io/projectpages/FlexiAct/.

English

Action customization involves generating videos where the subject performs actions dictated by input control signals. Current methods use pose-guided or global motion customization but are limited by strict constraints on spatial structure, such as layout, skeleton, and viewpoint consistency, reducing adaptability across diverse subjects and scenarios. To overcome these limitations, we propose FlexiAct, which transfers actions from a reference video to an arbitrary target image. Unlike existing methods, FlexiAct allows for variations in layout, viewpoint, and skeletal structure between the subject of the reference video and the target image, while maintaining identity consistency. Achieving this requires precise action control, spatial structure adaptation, and consistency preservation. To this end, we introduce RefAdapter, a lightweight image-conditioned adapter that excels in spatial adaptation and consistency preservation, surpassing existing methods in balancing appearance consistency and structural flexibility. Additionally, based on our observations, the denoising process exhibits varying levels of attention to motion (low frequency) and appearance details (high frequency) at different timesteps. So we propose FAE (Frequency-aware Action Extraction), which, unlike existing methods that rely on separate spatial-temporal architectures, directly achieves action extraction during the denoising process. Experiments demonstrate that our method effectively transfers actions to subjects with diverse layouts, skeletons, and viewpoints. We release our code and model weights to support further research at https://shiyi-zh0408.github.io/projectpages/FlexiAct/

FlexiAct: в направлении гибкого управления действиями в гетерогенных сценариях

FlexiAct: Towards Flexible Action Control in Heterogeneous Scenarios

Аннотация

Support