FlexiAct: Naar flexibele actiecontrole in heterogene scenario's

Samenvatting

Actie-aanpassing omvat het genereren van video's waarin het onderwerp acties uitvoert die worden bepaald door invoerbesturingssignalen. Huidige methoden gebruiken pose-gestuurde of globale beweging-aanpassing, maar worden beperkt door strikte beperkingen op ruimtelijke structuur, zoals lay-out, skelet en consistentie van gezichtspunt, wat de aanpassingsmogelijkheden over diverse onderwerpen en scenario's vermindert. Om deze beperkingen te overwinnen, stellen we FlexiAct voor, dat acties van een referentievideo overbrengt naar een willekeurig doelbeeld. In tegenstelling tot bestaande methoden, staat FlexiAct variaties toe in lay-out, gezichtspunt en skeletstructuur tussen het onderwerp van de referentievideo en het doelbeeld, terwijl identiteitsconsistentie behouden blijft. Het bereiken hiervan vereist precieze actiebesturing, aanpassing van ruimtelijke structuur en behoud van consistentie. Hiertoe introduceren we RefAdapter, een lichtgewicht beeld-gestuurde adapter die uitblinkt in ruimtelijke aanpassing en consistentiebehoud, en bestaande methoden overtreft in het balanceren van uiterlijkconsistentie en structurele flexibiliteit. Daarnaast, gebaseerd op onze observaties, toont het denoisingsproces verschillende niveaus van aandacht voor beweging (lage frequentie) en uiterlijkdetails (hoge frequentie) op verschillende tijdstappen. Daarom stellen we FAE (Frequentie-bewuste Actie-extractie) voor, dat, in tegenstelling tot bestaande methoden die afhankelijk zijn van gescheiden ruimtelijk-temporele architecturen, direct actie-extractie bereikt tijdens het denoisingsproces. Experimenten tonen aan dat onze methode effectief acties overbrengt naar onderwerpen met diverse lay-outs, skeletten en gezichtspunten. We geven onze code en modelgewichten vrij om verder onderzoek te ondersteunen op https://shiyi-zh0408.github.io/projectpages/FlexiAct/.

English

Action customization involves generating videos where the subject performs actions dictated by input control signals. Current methods use pose-guided or global motion customization but are limited by strict constraints on spatial structure, such as layout, skeleton, and viewpoint consistency, reducing adaptability across diverse subjects and scenarios. To overcome these limitations, we propose FlexiAct, which transfers actions from a reference video to an arbitrary target image. Unlike existing methods, FlexiAct allows for variations in layout, viewpoint, and skeletal structure between the subject of the reference video and the target image, while maintaining identity consistency. Achieving this requires precise action control, spatial structure adaptation, and consistency preservation. To this end, we introduce RefAdapter, a lightweight image-conditioned adapter that excels in spatial adaptation and consistency preservation, surpassing existing methods in balancing appearance consistency and structural flexibility. Additionally, based on our observations, the denoising process exhibits varying levels of attention to motion (low frequency) and appearance details (high frequency) at different timesteps. So we propose FAE (Frequency-aware Action Extraction), which, unlike existing methods that rely on separate spatial-temporal architectures, directly achieves action extraction during the denoising process. Experiments demonstrate that our method effectively transfers actions to subjects with diverse layouts, skeletons, and viewpoints. We release our code and model weights to support further research at https://shiyi-zh0408.github.io/projectpages/FlexiAct/

FlexiAct: Naar flexibele actiecontrole in heterogene scenario's

FlexiAct: Towards Flexible Action Control in Heterogeneous Scenarios

Samenvatting

Support