InterActHuman: Animación Humana Multi-Concepto con Condiciones de Audio Alineadas al Diseño
InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions
June 11, 2025
Autores: Zhenzhi Wang, Jiaqi Yang, Jianwen Jiang, Chao Liang, Gaojie Lin, Zerong Zheng, Ceyuan Yang, Dahua Lin
cs.AI
Resumen
La animación humana de extremo a extremo con condiciones multimodales ricas, como texto, imagen y audio, ha logrado avances notables en los últimos años. Sin embargo, la mayoría de los métodos existentes solo pueden animar un único sujeto e inyectar condiciones de manera global, ignorando escenarios en los que múltiples conceptos pueden aparecer en el mismo video con interacciones ricas entre humanos y entre humanos y objetos. Esta suposición global impide un control preciso y por identidad de múltiples conceptos, incluyendo humanos y objetos, lo que dificulta las aplicaciones. En este trabajo, descartamos la suposición de entidad única e introducimos un marco novedoso que refuerza la vinculación fuerte y específica de regiones de condiciones de modalidades a la huella espacio-temporal de cada identidad. Dadas imágenes de referencia de múltiples conceptos, nuestro método puede inferir automáticamente información de diseño al aprovechar un predictor de máscaras para emparejar pistas de apariencia entre el video desruido y cada apariencia de referencia. Además, inyectamos condiciones de audio locales en su región correspondiente para garantizar una coincidencia de modalidades alineada con el diseño de manera iterativa. Este diseño permite la generación de alta calidad de videos centrados en humanos con múltiples conceptos controlables. Los resultados empíricos y los estudios de ablación validan la efectividad de nuestro control explícito de diseño para condiciones multimodales en comparación con contrapartes implícitas y otros métodos existentes.
English
End-to-end human animation with rich multi-modal conditions, e.g., text,
image and audio has achieved remarkable advancements in recent years. However,
most existing methods could only animate a single subject and inject conditions
in a global manner, ignoring scenarios that multiple concepts could appears in
the same video with rich human-human interactions and human-object
interactions. Such global assumption prevents precise and per-identity control
of multiple concepts including humans and objects, therefore hinders
applications. In this work, we discard the single-entity assumption and
introduce a novel framework that enforces strong, region-specific binding of
conditions from modalities to each identity's spatiotemporal footprint. Given
reference images of multiple concepts, our method could automatically infer
layout information by leveraging a mask predictor to match appearance cues
between the denoised video and each reference appearance. Furthermore, we
inject local audio condition into its corresponding region to ensure
layout-aligned modality matching in a iterative manner. This design enables the
high-quality generation of controllable multi-concept human-centric videos.
Empirical results and ablation studies validate the effectiveness of our
explicit layout control for multi-modal conditions compared to implicit
counterparts and other existing methods.