FantasyTalking2: Otimização Adaptativa de Preferências por Camada de Passo Temporal para Animação de Retrato Dirigida por Áudio
FantasyTalking2: Timestep-Layer Adaptive Preference Optimization for Audio-Driven Portrait Animation
August 15, 2025
Autores: MengChao Wang, Qiang Wang, Fan Jiang, Mu Xu
cs.AI
Resumo
Avanços recentes na animação de retratos impulsionada por áudio têm demonstrado capacidades impressionantes. No entanto, os métodos existentes lutam para se alinhar com preferências humanas detalhadas em múltiplas dimensões, como naturalidade do movimento, precisão de sincronização labial e qualidade visual. Isso se deve à dificuldade de otimizar entre objetivos de preferência concorrentes, que frequentemente entram em conflito uns com os outros, e à escassez de conjuntos de dados em larga escala e de alta qualidade com anotações de preferência multidimensionais. Para abordar esses desafios, primeiro introduzimos o Talking-Critic, um modelo de recompensa multimodal que aprende funções de recompensa alinhadas com humanos para quantificar o quão bem os vídeos gerados atendem às expectativas multidimensionais. Aproveitando esse modelo, criamos o Talking-NSQ, um conjunto de dados de preferência humana multidimensional em larga escala contendo 410K pares de preferência. Finalmente, propomos o Timestep-Layer adaptive multi-expert Preference Optimization (TLPO), uma estrutura inovadora para alinhar modelos de animação de retratos baseados em difusão com preferências detalhadas e multidimensionais. O TLPO desacopla as preferências em módulos especializados de especialistas, que são então fundidos ao longo de intervalos de tempo e camadas da rede, permitindo aprimoramento abrangente e detalhado em todas as dimensões sem interferência mútua. Experimentos demonstram que o Talking-Critic supera significativamente os métodos existentes no alinhamento com as avaliações de preferência humana. Enquanto isso, o TLPO alcança melhorias substanciais em relação aos modelos de referência em precisão de sincronização labial, naturalidade do movimento e qualidade visual, exibindo desempenho superior em avaliações qualitativas e quantitativas. Nossa página do projeto: https://fantasy-amap.github.io/fantasy-talking2/
English
Recent advances in audio-driven portrait animation have demonstrated
impressive capabilities. However, existing methods struggle to align with
fine-grained human preferences across multiple dimensions, such as motion
naturalness, lip-sync accuracy, and visual quality. This is due to the
difficulty of optimizing among competing preference objectives, which often
conflict with one another, and the scarcity of large-scale, high-quality
datasets with multidimensional preference annotations. To address these, we
first introduce Talking-Critic, a multimodal reward model that learns
human-aligned reward functions to quantify how well generated videos satisfy
multidimensional expectations. Leveraging this model, we curate Talking-NSQ, a
large-scale multidimensional human preference dataset containing 410K
preference pairs. Finally, we propose Timestep-Layer adaptive multi-expert
Preference Optimization (TLPO), a novel framework for aligning diffusion-based
portrait animation models with fine-grained, multidimensional preferences. TLPO
decouples preferences into specialized expert modules, which are then fused
across timesteps and network layers, enabling comprehensive, fine-grained
enhancement across all dimensions without mutual interference. Experiments
demonstrate that Talking-Critic significantly outperforms existing methods in
aligning with human preference ratings. Meanwhile, TLPO achieves substantial
improvements over baseline models in lip-sync accuracy, motion naturalness, and
visual quality, exhibiting superior performance in both qualitative and
quantitative evaluations. Ours project page:
https://fantasy-amap.github.io/fantasy-talking2/