FantasyTalking2: Optimización Adaptativa de Preferencias por Capa y Paso de Tiempo para Animación de Retratos Impulsada por Audio

Resumen

Los recientes avances en la animación de retratos impulsada por audio han demostrado capacidades impresionantes. Sin embargo, los métodos existentes tienen dificultades para alinearse con las preferencias humanas detalladas en múltiples dimensiones, como la naturalidad del movimiento, la precisión de la sincronización labial y la calidad visual. Esto se debe a la dificultad de optimizar entre objetivos de preferencia que compiten entre sí, los cuales a menudo entran en conflicto, y a la escasez de conjuntos de datos a gran escala y de alta calidad con anotaciones de preferencia multidimensionales. Para abordar estos problemas, primero presentamos Talking-Critic, un modelo de recompensa multimodal que aprende funciones de recompensa alineadas con los humanos para cuantificar qué tan bien los videos generados satisfacen expectativas multidimensionales. Aprovechando este modelo, creamos Talking-NSQ, un conjunto de datos de preferencias humanas multidimensionales a gran escala que contiene 410K pares de preferencias. Finalmente, proponemos Timestep-Layer adaptive multi-expert Preference Optimization (TLPO), un marco novedoso para alinear modelos de animación de retatos basados en difusión con preferencias detalladas y multidimensionales. TLPO desacopla las preferencias en módulos expertos especializados, que luego se fusionan a través de pasos de tiempo y capas de red, permitiendo una mejora integral y detallada en todas las dimensiones sin interferencia mutua. Los experimentos demuestran que Talking-Critic supera significativamente a los métodos existentes en la alineación con las calificaciones de preferencia humana. Mientras tanto, TLPO logra mejoras sustanciales sobre los modelos de referencia en la precisión de la sincronización labial, la naturalidad del movimiento y la calidad visual, exhibiendo un rendimiento superior tanto en evaluaciones cualitativas como cuantitativas. Nuestra página del proyecto: https://fantasy-amap.github.io/fantasy-talking2/

English

Recent advances in audio-driven portrait animation have demonstrated impressive capabilities. However, existing methods struggle to align with fine-grained human preferences across multiple dimensions, such as motion naturalness, lip-sync accuracy, and visual quality. This is due to the difficulty of optimizing among competing preference objectives, which often conflict with one another, and the scarcity of large-scale, high-quality datasets with multidimensional preference annotations. To address these, we first introduce Talking-Critic, a multimodal reward model that learns human-aligned reward functions to quantify how well generated videos satisfy multidimensional expectations. Leveraging this model, we curate Talking-NSQ, a large-scale multidimensional human preference dataset containing 410K preference pairs. Finally, we propose Timestep-Layer adaptive multi-expert Preference Optimization (TLPO), a novel framework for aligning diffusion-based portrait animation models with fine-grained, multidimensional preferences. TLPO decouples preferences into specialized expert modules, which are then fused across timesteps and network layers, enabling comprehensive, fine-grained enhancement across all dimensions without mutual interference. Experiments demonstrate that Talking-Critic significantly outperforms existing methods in aligning with human preference ratings. Meanwhile, TLPO achieves substantial improvements over baseline models in lip-sync accuracy, motion naturalness, and visual quality, exhibiting superior performance in both qualitative and quantitative evaluations. Ours project page: https://fantasy-amap.github.io/fantasy-talking2/

FantasyTalking2: Optimización Adaptativa de Preferencias por Capa y Paso de Tiempo para Animación de Retratos Impulsada por Audio

FantasyTalking2: Timestep-Layer Adaptive Preference Optimization for Audio-Driven Portrait Animation

Resumen

Support