ChatPaper.aiChatPaper

InterActHuman: Мультиконцептуальная анимация человека с условиями, согласованными с компоновкой и аудио

InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions

June 11, 2025
Авторы: Zhenzhi Wang, Jiaqi Yang, Jianwen Jiang, Chao Liang, Gaojie Lin, Zerong Zheng, Ceyuan Yang, Dahua Lin
cs.AI

Аннотация

Создание анимации человека с использованием богатых мультимодальных условий, таких как текст, изображение и аудио, достигло значительных успехов в последние годы. Однако большинство существующих методов способны анимировать только один объект и применяют условия глобально, игнорируя сценарии, в которых несколько концепций могут присутствовать в одном видео с интенсивными взаимодействиями между людьми и объектами. Такое глобальное предположение препятствует точному и индивидуальному управлению несколькими концепциями, включая людей и объекты, что ограничивает практическое применение. В данной работе мы отказываемся от предположения о единичном объекте и предлагаем новую структуру, которая обеспечивает строгую, регионально-специфичную привязку условий из различных модальностей к пространственно-временному следу каждой идентичности. При наличии эталонных изображений нескольких концепций наш метод автоматически определяет информацию о компоновке, используя предсказатель масок для сопоставления визуальных признаков между очищенным видео и каждым эталонным изображением. Кроме того, мы внедряем локальное аудиоусловие в соответствующую область, чтобы обеспечить согласованное сопоставление модальностей с компоновкой в итеративном режиме. Такой подход позволяет создавать высококачественные управляемые видео с несколькими концепциями, ориентированными на человека. Эмпирические результаты и исследования с исключением компонентов подтверждают эффективность нашего явного управления компоновкой для мультимодальных условий по сравнению с неявными аналогами и другими существующими методами.
English
End-to-end human animation with rich multi-modal conditions, e.g., text, image and audio has achieved remarkable advancements in recent years. However, most existing methods could only animate a single subject and inject conditions in a global manner, ignoring scenarios that multiple concepts could appears in the same video with rich human-human interactions and human-object interactions. Such global assumption prevents precise and per-identity control of multiple concepts including humans and objects, therefore hinders applications. In this work, we discard the single-entity assumption and introduce a novel framework that enforces strong, region-specific binding of conditions from modalities to each identity's spatiotemporal footprint. Given reference images of multiple concepts, our method could automatically infer layout information by leveraging a mask predictor to match appearance cues between the denoised video and each reference appearance. Furthermore, we inject local audio condition into its corresponding region to ensure layout-aligned modality matching in a iterative manner. This design enables the high-quality generation of controllable multi-concept human-centric videos. Empirical results and ablation studies validate the effectiveness of our explicit layout control for multi-modal conditions compared to implicit counterparts and other existing methods.
PDF122June 12, 2025