ChatPaper.aiChatPaper

FlexiAct: 이종 시나리오에서 유연한 행동 제어를 향하여

FlexiAct: Towards Flexible Action Control in Heterogeneous Scenarios

May 6, 2025
저자: Shiyi Zhang, Junhao Zhuang, Zhaoyang Zhang, Ying Shan, Yansong Tang
cs.AI

초록

액션 커스터마이제이션은 입력 제어 신호에 따라 주체가 특정 동작을 수행하는 비디오를 생성하는 과정을 포함합니다. 현재의 방법들은 포즈 기반 또는 전역 모션 커스터마이제이션을 사용하지만, 레이아웃, 골격, 시점 일관성과 같은 공간 구조에 대한 엄격한 제약으로 인해 다양한 주체와 시나리오에 대한 적응성이 제한됩니다. 이러한 한계를 극복하기 위해, 우리는 참조 비디오의 동작을 임의의 타겟 이미지로 전이하는 FlexiAct를 제안합니다. 기존 방법과 달리, FlexiAct는 참조 비디오의 주체와 타겟 이미지 간의 레이아웃, 시점, 골격 구조의 변동을 허용하면서도 정체성 일관성을 유지합니다. 이를 달성하기 위해서는 정밀한 동작 제어, 공간 구조 적응, 그리고 일관성 보존이 필요합니다. 이를 위해, 우리는 공간 적응과 일관성 보존에 뛰어난 경량 이미지 조건부 어댑터인 RefAdapter를 도입했습니다. 이는 외관 일관성과 구조적 유연성의 균형을 맞추는 데 있어 기존 방법들을 능가합니다. 또한, 우리의 관찰에 따르면, 노이즈 제거 과정은 다양한 시간 단계에서 모션(저주파)과 외관 세부 사항(고주파)에 대해 서로 다른 수준의 주의를 기울입니다. 따라서 우리는 기존의 공간-시간 아키텍처를 분리하여 의존하는 방법과 달리, 노이즈 제거 과정에서 직접 동작 추출을 달성하는 FAE(Frequency-aware Action Extraction)를 제안합니다. 실험 결과, 우리의 방법은 다양한 레이아웃, 골격, 시점을 가진 주체에게 효과적으로 동작을 전이함을 보여줍니다. 우리는 추가 연구를 지원하기 위해 코드와 모델 가중치를 https://shiyi-zh0408.github.io/projectpages/FlexiAct/에서 공개합니다.
English
Action customization involves generating videos where the subject performs actions dictated by input control signals. Current methods use pose-guided or global motion customization but are limited by strict constraints on spatial structure, such as layout, skeleton, and viewpoint consistency, reducing adaptability across diverse subjects and scenarios. To overcome these limitations, we propose FlexiAct, which transfers actions from a reference video to an arbitrary target image. Unlike existing methods, FlexiAct allows for variations in layout, viewpoint, and skeletal structure between the subject of the reference video and the target image, while maintaining identity consistency. Achieving this requires precise action control, spatial structure adaptation, and consistency preservation. To this end, we introduce RefAdapter, a lightweight image-conditioned adapter that excels in spatial adaptation and consistency preservation, surpassing existing methods in balancing appearance consistency and structural flexibility. Additionally, based on our observations, the denoising process exhibits varying levels of attention to motion (low frequency) and appearance details (high frequency) at different timesteps. So we propose FAE (Frequency-aware Action Extraction), which, unlike existing methods that rely on separate spatial-temporal architectures, directly achieves action extraction during the denoising process. Experiments demonstrate that our method effectively transfers actions to subjects with diverse layouts, skeletons, and viewpoints. We release our code and model weights to support further research at https://shiyi-zh0408.github.io/projectpages/FlexiAct/

Summary

AI-Generated Summary

PDF251May 7, 2025