FantasyTalking2 : Optimisation Adaptative des Préférences par Couche et Pas de Temps pour l'Animation de Portraits Pilotée par l'Audio
FantasyTalking2: Timestep-Layer Adaptive Preference Optimization for Audio-Driven Portrait Animation
August 15, 2025
papers.authors: MengChao Wang, Qiang Wang, Fan Jiang, Mu Xu
cs.AI
papers.abstract
Les récents progrès dans l'animation de portraits pilotée par l'audio ont démontré des capacités impressionnantes. Cependant, les méthodes existantes peinent à s'aligner sur les préférences humaines fines et multidimensionnelles, telles que le naturel des mouvements, la précision de la synchronisation labiale et la qualité visuelle. Cela est dû à la difficulté d'optimiser des objectifs de préférence souvent conflictuels, ainsi qu'à la rareté de jeux de données de grande échelle et de haute qualité comportant des annotations de préférence multidimensionnelles. Pour résoudre ces problèmes, nous introduisons d'abord Talking-Critic, un modèle de récompense multimodal qui apprend des fonctions de récompense alignées sur les humains pour quantifier dans quelle mesure les vidéos générées satisfont les attentes multidimensionnelles. En nous appuyant sur ce modèle, nous constituons Talking-NSQ, un jeu de données de préférence humaine multidimensionnelle à grande échelle contenant 410 000 paires de préférences. Enfin, nous proposons Timestep-Layer adaptive multi-expert Preference Optimization (TLPO), un cadre novateur pour aligner les modèles d'animation de portraits basés sur la diffusion avec des préférences fines et multidimensionnelles. TLPO découple les préférences en modules experts spécialisés, qui sont ensuite fusionnés à travers les étapes temporelles et les couches du réseau, permettant une amélioration complète et fine dans toutes les dimensions sans interférence mutuelle. Les expériences montrent que Talking-Critic surpasse significativement les méthodes existantes en termes d'alignement avec les évaluations de préférence humaine. Par ailleurs, TLPO réalise des améliorations substantielles par rapport aux modèles de référence en précision de synchronisation labiale, naturel des mouvements et qualité visuelle, affichant une performance supérieure dans les évaluations qualitatives et quantitatives. Notre page de projet : https://fantasy-amap.github.io/fantasy-talking2/
English
Recent advances in audio-driven portrait animation have demonstrated
impressive capabilities. However, existing methods struggle to align with
fine-grained human preferences across multiple dimensions, such as motion
naturalness, lip-sync accuracy, and visual quality. This is due to the
difficulty of optimizing among competing preference objectives, which often
conflict with one another, and the scarcity of large-scale, high-quality
datasets with multidimensional preference annotations. To address these, we
first introduce Talking-Critic, a multimodal reward model that learns
human-aligned reward functions to quantify how well generated videos satisfy
multidimensional expectations. Leveraging this model, we curate Talking-NSQ, a
large-scale multidimensional human preference dataset containing 410K
preference pairs. Finally, we propose Timestep-Layer adaptive multi-expert
Preference Optimization (TLPO), a novel framework for aligning diffusion-based
portrait animation models with fine-grained, multidimensional preferences. TLPO
decouples preferences into specialized expert modules, which are then fused
across timesteps and network layers, enabling comprehensive, fine-grained
enhancement across all dimensions without mutual interference. Experiments
demonstrate that Talking-Critic significantly outperforms existing methods in
aligning with human preference ratings. Meanwhile, TLPO achieves substantial
improvements over baseline models in lip-sync accuracy, motion naturalness, and
visual quality, exhibiting superior performance in both qualitative and
quantitative evaluations. Ours project page:
https://fantasy-amap.github.io/fantasy-talking2/