InterActHuman: Animación Humana Multi-Concepto con Condiciones de Audio Alineadas al Diseño

Resumen

La animación humana de extremo a extremo con condiciones multimodales ricas, como texto, imagen y audio, ha logrado avances notables en los últimos años. Sin embargo, la mayoría de los métodos existentes solo pueden animar un único sujeto e inyectar condiciones de manera global, ignorando escenarios en los que múltiples conceptos pueden aparecer en el mismo video con interacciones ricas entre humanos y entre humanos y objetos. Esta suposición global impide un control preciso y por identidad de múltiples conceptos, incluyendo humanos y objetos, lo que dificulta las aplicaciones. En este trabajo, descartamos la suposición de entidad única e introducimos un marco novedoso que refuerza la vinculación fuerte y específica de regiones de condiciones de modalidades a la huella espacio-temporal de cada identidad. Dadas imágenes de referencia de múltiples conceptos, nuestro método puede inferir automáticamente información de diseño al aprovechar un predictor de máscaras para emparejar pistas de apariencia entre el video desruido y cada apariencia de referencia. Además, inyectamos condiciones de audio locales en su región correspondiente para garantizar una coincidencia de modalidades alineada con el diseño de manera iterativa. Este diseño permite la generación de alta calidad de videos centrados en humanos con múltiples conceptos controlables. Los resultados empíricos y los estudios de ablación validan la efectividad de nuestro control explícito de diseño para condiciones multimodales en comparación con contrapartes implícitas y otros métodos existentes.

English

End-to-end human animation with rich multi-modal conditions, e.g., text, image and audio has achieved remarkable advancements in recent years. However, most existing methods could only animate a single subject and inject conditions in a global manner, ignoring scenarios that multiple concepts could appears in the same video with rich human-human interactions and human-object interactions. Such global assumption prevents precise and per-identity control of multiple concepts including humans and objects, therefore hinders applications. In this work, we discard the single-entity assumption and introduce a novel framework that enforces strong, region-specific binding of conditions from modalities to each identity's spatiotemporal footprint. Given reference images of multiple concepts, our method could automatically infer layout information by leveraging a mask predictor to match appearance cues between the denoised video and each reference appearance. Furthermore, we inject local audio condition into its corresponding region to ensure layout-aligned modality matching in a iterative manner. This design enables the high-quality generation of controllable multi-concept human-centric videos. Empirical results and ablation studies validate the effectiveness of our explicit layout control for multi-modal conditions compared to implicit counterparts and other existing methods.

InterActHuman: Animación Humana Multi-Concepto con Condiciones de Audio Alineadas al Diseño

InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions

Resumen

Support