FlexiAct: Hacia el control flexible de acciones en escenarios heterogéneos
FlexiAct: Towards Flexible Action Control in Heterogeneous Scenarios
May 6, 2025
Autores: Shiyi Zhang, Junhao Zhuang, Zhaoyang Zhang, Ying Shan, Yansong Tang
cs.AI
Resumen
La personalización de acciones implica generar videos en los que el sujeto realiza acciones dictadas por señales de control de entrada. Los métodos actuales utilizan la personalización guiada por poses o de movimiento global, pero están limitados por restricciones estrictas en la estructura espacial, como la disposición, el esqueleto y la consistencia del punto de vista, lo que reduce la adaptabilidad en diversos sujetos y escenarios. Para superar estas limitaciones, proponemos FlexiAct, que transfiere acciones desde un video de referencia a una imagen objetivo arbitraria. A diferencia de los métodos existentes, FlexiAct permite variaciones en la disposición, el punto de vista y la estructura esquelética entre el sujeto del video de referencia y la imagen objetivo, manteniendo la consistencia de la identidad. Lograr esto requiere un control preciso de la acción, adaptación de la estructura espacial y preservación de la consistencia. Para ello, introducimos RefAdapter, un adaptador ligero condicionado por imágenes que sobresale en la adaptación espacial y la preservación de la consistencia, superando a los métodos existentes en el equilibrio entre la consistencia de la apariencia y la flexibilidad estructural. Además, basándonos en nuestras observaciones, el proceso de eliminación de ruido muestra diferentes niveles de atención al movimiento (baja frecuencia) y a los detalles de apariencia (alta frecuencia) en diferentes pasos de tiempo. Por lo tanto, proponemos FAE (Extracción de Acciones Consciente de la Frecuencia), que, a diferencia de los métodos existentes que dependen de arquitecturas espacio-temporales separadas, logra directamente la extracción de acciones durante el proceso de eliminación de ruido. Los experimentos demuestran que nuestro método transfiere efectivamente acciones a sujetos con diversas disposiciones, esqueletos y puntos de vista. Publicamos nuestro código y pesos del modelo para apoyar investigaciones futuras en https://shiyi-zh0408.github.io/projectpages/FlexiAct/.
English
Action customization involves generating videos where the subject performs
actions dictated by input control signals. Current methods use pose-guided or
global motion customization but are limited by strict constraints on spatial
structure, such as layout, skeleton, and viewpoint consistency, reducing
adaptability across diverse subjects and scenarios. To overcome these
limitations, we propose FlexiAct, which transfers actions from a reference
video to an arbitrary target image. Unlike existing methods, FlexiAct allows
for variations in layout, viewpoint, and skeletal structure between the subject
of the reference video and the target image, while maintaining identity
consistency. Achieving this requires precise action control, spatial structure
adaptation, and consistency preservation. To this end, we introduce RefAdapter,
a lightweight image-conditioned adapter that excels in spatial adaptation and
consistency preservation, surpassing existing methods in balancing appearance
consistency and structural flexibility. Additionally, based on our
observations, the denoising process exhibits varying levels of attention to
motion (low frequency) and appearance details (high frequency) at different
timesteps. So we propose FAE (Frequency-aware Action Extraction), which, unlike
existing methods that rely on separate spatial-temporal architectures, directly
achieves action extraction during the denoising process. Experiments
demonstrate that our method effectively transfers actions to subjects with
diverse layouts, skeletons, and viewpoints. We release our code and model
weights to support further research at
https://shiyi-zh0408.github.io/projectpages/FlexiAct/Summary
AI-Generated Summary