ChatPaper.aiChatPaper

HunyuanCustom: Una arquitectura impulsada por multimodalidad para la generación de videos personalizados

HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation

May 7, 2025
Autores: Teng Hu, Zhentao Yu, Zhengguang Zhou, Sen Liang, Yuan Zhou, Qin Lin, Qinglin Lu
cs.AI

Resumen

La generación de videos personalizados tiene como objetivo producir videos que presenten sujetos específicos bajo condiciones flexibles definidas por el usuario, aunque los métodos existentes suelen enfrentar dificultades con la consistencia de identidad y las modalidades de entrada limitadas. En este artículo, proponemos HunyuanCustom, un marco de generación de videos personalizados multimodal que enfatiza la consistencia del sujeto mientras admite condiciones de imagen, audio, video y texto. Basado en HunyuanVideo, nuestro modelo aborda primero la tarea de generación condicionada por imagen y texto mediante la introducción de un módulo de fusión texto-imagen basado en LLaVA para mejorar la comprensión multimodal, junto con un módulo de mejora de identidad de imagen que aprovecha la concatenación temporal para reforzar las características de identidad a lo largo de los fotogramas. Para habilitar la generación condicionada por audio y video, proponemos además mecanismos de inyección de condiciones específicos para cada modalidad: un módulo AudioNet que logra alineación jerárquica mediante atención cruzada espacial, y un módulo de inyección impulsado por video que integra video condicional comprimido en el espacio latente a través de una red de alineación de características basada en parches. Experimentos exhaustivos en escenarios de uno y múltiples sujetos demuestran que HunyuanCustom supera significativamente a los métodos de última generación, tanto de código abierto como cerrado, en términos de consistencia de identidad, realismo y alineación texto-video. Además, validamos su robustez en tareas posteriores, incluyendo la generación de videos personalizados impulsados por audio y video. Nuestros resultados destacan la efectividad de las estrategias de condicionamiento multimodal y preservación de identidad para avanzar en la generación de videos controlables. Todo el código y los modelos están disponibles en https://hunyuancustom.github.io.
English
Customized video generation aims to produce videos featuring specific subjects under flexible user-defined conditions, yet existing methods often struggle with identity consistency and limited input modalities. In this paper, we propose HunyuanCustom, a multi-modal customized video generation framework that emphasizes subject consistency while supporting image, audio, video, and text conditions. Built upon HunyuanVideo, our model first addresses the image-text conditioned generation task by introducing a text-image fusion module based on LLaVA for enhanced multi-modal understanding, along with an image ID enhancement module that leverages temporal concatenation to reinforce identity features across frames. To enable audio- and video-conditioned generation, we further propose modality-specific condition injection mechanisms: an AudioNet module that achieves hierarchical alignment via spatial cross-attention, and a video-driven injection module that integrates latent-compressed conditional video through a patchify-based feature-alignment network. Extensive experiments on single- and multi-subject scenarios demonstrate that HunyuanCustom significantly outperforms state-of-the-art open- and closed-source methods in terms of ID consistency, realism, and text-video alignment. Moreover, we validate its robustness across downstream tasks, including audio and video-driven customized video generation. Our results highlight the effectiveness of multi-modal conditioning and identity-preserving strategies in advancing controllable video generation. All the code and models are available at https://hunyuancustom.github.io.

Summary

AI-Generated Summary

PDF263May 8, 2025