FantasyTalking2: Optimización Adaptativa de Preferencias por Capa y Paso de Tiempo para Animación de Retratos Impulsada por Audio
FantasyTalking2: Timestep-Layer Adaptive Preference Optimization for Audio-Driven Portrait Animation
August 15, 2025
Autores: MengChao Wang, Qiang Wang, Fan Jiang, Mu Xu
cs.AI
Resumen
Los recientes avances en la animación de retratos impulsada por audio han demostrado capacidades impresionantes. Sin embargo, los métodos existentes tienen dificultades para alinearse con las preferencias humanas detalladas en múltiples dimensiones, como la naturalidad del movimiento, la precisión de la sincronización labial y la calidad visual. Esto se debe a la dificultad de optimizar entre objetivos de preferencia que compiten entre sí, los cuales a menudo entran en conflicto, y a la escasez de conjuntos de datos a gran escala y de alta calidad con anotaciones de preferencia multidimensionales. Para abordar estos problemas, primero presentamos Talking-Critic, un modelo de recompensa multimodal que aprende funciones de recompensa alineadas con los humanos para cuantificar qué tan bien los videos generados satisfacen expectativas multidimensionales. Aprovechando este modelo, creamos Talking-NSQ, un conjunto de datos de preferencias humanas multidimensionales a gran escala que contiene 410K pares de preferencias. Finalmente, proponemos Timestep-Layer adaptive multi-expert Preference Optimization (TLPO), un marco novedoso para alinear modelos de animación de retatos basados en difusión con preferencias detalladas y multidimensionales. TLPO desacopla las preferencias en módulos expertos especializados, que luego se fusionan a través de pasos de tiempo y capas de red, permitiendo una mejora integral y detallada en todas las dimensiones sin interferencia mutua. Los experimentos demuestran que Talking-Critic supera significativamente a los métodos existentes en la alineación con las calificaciones de preferencia humana. Mientras tanto, TLPO logra mejoras sustanciales sobre los modelos de referencia en la precisión de la sincronización labial, la naturalidad del movimiento y la calidad visual, exhibiendo un rendimiento superior tanto en evaluaciones cualitativas como cuantitativas. Nuestra página del proyecto: https://fantasy-amap.github.io/fantasy-talking2/
English
Recent advances in audio-driven portrait animation have demonstrated
impressive capabilities. However, existing methods struggle to align with
fine-grained human preferences across multiple dimensions, such as motion
naturalness, lip-sync accuracy, and visual quality. This is due to the
difficulty of optimizing among competing preference objectives, which often
conflict with one another, and the scarcity of large-scale, high-quality
datasets with multidimensional preference annotations. To address these, we
first introduce Talking-Critic, a multimodal reward model that learns
human-aligned reward functions to quantify how well generated videos satisfy
multidimensional expectations. Leveraging this model, we curate Talking-NSQ, a
large-scale multidimensional human preference dataset containing 410K
preference pairs. Finally, we propose Timestep-Layer adaptive multi-expert
Preference Optimization (TLPO), a novel framework for aligning diffusion-based
portrait animation models with fine-grained, multidimensional preferences. TLPO
decouples preferences into specialized expert modules, which are then fused
across timesteps and network layers, enabling comprehensive, fine-grained
enhancement across all dimensions without mutual interference. Experiments
demonstrate that Talking-Critic significantly outperforms existing methods in
aligning with human preference ratings. Meanwhile, TLPO achieves substantial
improvements over baseline models in lip-sync accuracy, motion naturalness, and
visual quality, exhibiting superior performance in both qualitative and
quantitative evaluations. Ours project page:
https://fantasy-amap.github.io/fantasy-talking2/