ChatPaper.aiChatPaper

FlexiAct : Vers un contrôle flexible des actions dans des scénarios hétérogènes

FlexiAct: Towards Flexible Action Control in Heterogeneous Scenarios

May 6, 2025
Auteurs: Shiyi Zhang, Junhao Zhuang, Zhaoyang Zhang, Ying Shan, Yansong Tang
cs.AI

Résumé

La personnalisation d'action consiste à générer des vidéos où le sujet effectue des actions dictées par des signaux de contrôle en entrée. Les méthodes actuelles utilisent la personnalisation guidée par la pose ou par le mouvement global, mais sont limitées par des contraintes strictes sur la structure spatiale, telles que la disposition, le squelette et la cohérence du point de vue, réduisant ainsi l'adaptabilité à divers sujets et scénarios. Pour surmonter ces limitations, nous proposons FlexiAct, qui transfère les actions d'une vidéo de référence à une image cible arbitraire. Contrairement aux méthodes existantes, FlexiAct permet des variations dans la disposition, le point de vue et la structure squelettique entre le sujet de la vidéo de référence et l'image cible, tout en maintenant la cohérence de l'identité. Pour y parvenir, un contrôle précis de l'action, une adaptation de la structure spatiale et une préservation de la cohérence sont nécessaires. À cette fin, nous introduisons RefAdapter, un adaptateur léger conditionné par l'image, qui excelle dans l'adaptation spatiale et la préservation de la cohérence, surpassant les méthodes existantes dans l'équilibre entre la cohérence de l'apparence et la flexibilité structurelle. De plus, sur la base de nos observations, le processus de débruitage montre des niveaux d'attention variables au mouvement (basse fréquence) et aux détails d'apparence (haute fréquence) à différents pas de temps. Nous proposons donc FAE (Extraction d'Action Sensible à la Fréquence), qui, contrairement aux méthodes existantes qui reposent sur des architectures spatiales-temporelles séparées, réalise directement l'extraction d'action pendant le processus de débruitage. Les expériences démontrent que notre méthode transfère efficacement les actions à des sujets avec des dispositions, des squelettes et des points de vue divers. Nous publions notre code et les poids du modèle pour soutenir des recherches ultérieures sur https://shiyi-zh0408.github.io/projectpages/FlexiAct/
English
Action customization involves generating videos where the subject performs actions dictated by input control signals. Current methods use pose-guided or global motion customization but are limited by strict constraints on spatial structure, such as layout, skeleton, and viewpoint consistency, reducing adaptability across diverse subjects and scenarios. To overcome these limitations, we propose FlexiAct, which transfers actions from a reference video to an arbitrary target image. Unlike existing methods, FlexiAct allows for variations in layout, viewpoint, and skeletal structure between the subject of the reference video and the target image, while maintaining identity consistency. Achieving this requires precise action control, spatial structure adaptation, and consistency preservation. To this end, we introduce RefAdapter, a lightweight image-conditioned adapter that excels in spatial adaptation and consistency preservation, surpassing existing methods in balancing appearance consistency and structural flexibility. Additionally, based on our observations, the denoising process exhibits varying levels of attention to motion (low frequency) and appearance details (high frequency) at different timesteps. So we propose FAE (Frequency-aware Action Extraction), which, unlike existing methods that rely on separate spatial-temporal architectures, directly achieves action extraction during the denoising process. Experiments demonstrate that our method effectively transfers actions to subjects with diverse layouts, skeletons, and viewpoints. We release our code and model weights to support further research at https://shiyi-zh0408.github.io/projectpages/FlexiAct/

Summary

AI-Generated Summary

PDF251May 7, 2025