FlexiAct: Auf dem Weg zu flexibler Aktionssteuerung in heterogenen Szenarien
FlexiAct: Towards Flexible Action Control in Heterogeneous Scenarios
May 6, 2025
Autoren: Shiyi Zhang, Junhao Zhuang, Zhaoyang Zhang, Ying Shan, Yansong Tang
cs.AI
Zusammenfassung
Die Anpassung von Aktionen beinhaltet die Erzeugung von Videos, in denen das Subjekt Handlungen ausführt, die durch Eingabesteuersignale vorgegeben werden. Aktuelle Methoden verwenden pose-gesteuerte oder globale Bewegungsanpassungen, sind jedoch durch strenge Einschränkungen in Bezug auf die räumliche Struktur, wie Layout, Skelett und Blickwinkelkonsistenz, begrenzt, was die Anpassungsfähigkeit über verschiedene Subjekte und Szenarien hinweg reduziert. Um diese Einschränkungen zu überwinden, schlagen wir FlexiAct vor, das Aktionen aus einem Referenzvideo auf ein beliebiges Zielbild überträgt. Im Gegensatz zu bestehenden Methoden ermöglicht FlexiAct Variationen in Layout, Blickwinkel und Skelettstruktur zwischen dem Subjekt des Referenzvideos und dem Zielbild, während die Identitätskonsistenz gewahrt bleibt. Um dies zu erreichen, sind präzise Aktionssteuerung, Anpassung der räumlichen Struktur und Konsistenzbewahrung erforderlich. Zu diesem Zweck führen wir RefAdapter ein, einen leichten, bildgesteuerten Adapter, der sich durch hervorragende räumliche Anpassung und Konsistenzbewahrung auszeichnet und bestehende Methoden in der Balance zwischen Erscheinungskonsistenz und struktureller Flexibilität übertrifft. Zusätzlich haben wir beobachtet, dass der Denoising-Prozess zu verschiedenen Zeitpunkten unterschiedliche Aufmerksamkeitsniveaus auf Bewegung (niedrige Frequenz) und Erscheinungsdetails (hohe Frequenz) zeigt. Daher schlagen wir FAE (Frequency-aware Action Extraction) vor, das im Gegensatz zu bestehenden Methoden, die auf getrennte räumlich-zeitliche Architekturen angewiesen sind, die Aktionsextraktion direkt während des Denoising-Prozesses erreicht. Experimente zeigen, dass unsere Methode Aktionen effektiv auf Subjekte mit unterschiedlichen Layouts, Skeletten und Blickwinkeln überträgt. Wir veröffentlichen unseren Code und Modellgewichte, um weitere Forschungen zu unterstützen, unter https://shiyi-zh0408.github.io/projectpages/FlexiAct/.
English
Action customization involves generating videos where the subject performs
actions dictated by input control signals. Current methods use pose-guided or
global motion customization but are limited by strict constraints on spatial
structure, such as layout, skeleton, and viewpoint consistency, reducing
adaptability across diverse subjects and scenarios. To overcome these
limitations, we propose FlexiAct, which transfers actions from a reference
video to an arbitrary target image. Unlike existing methods, FlexiAct allows
for variations in layout, viewpoint, and skeletal structure between the subject
of the reference video and the target image, while maintaining identity
consistency. Achieving this requires precise action control, spatial structure
adaptation, and consistency preservation. To this end, we introduce RefAdapter,
a lightweight image-conditioned adapter that excels in spatial adaptation and
consistency preservation, surpassing existing methods in balancing appearance
consistency and structural flexibility. Additionally, based on our
observations, the denoising process exhibits varying levels of attention to
motion (low frequency) and appearance details (high frequency) at different
timesteps. So we propose FAE (Frequency-aware Action Extraction), which, unlike
existing methods that rely on separate spatial-temporal architectures, directly
achieves action extraction during the denoising process. Experiments
demonstrate that our method effectively transfers actions to subjects with
diverse layouts, skeletons, and viewpoints. We release our code and model
weights to support further research at
https://shiyi-zh0408.github.io/projectpages/FlexiAct/Summary
AI-Generated Summary