ChatPaper.aiChatPaper

FantasyTalking2 : Optimisation Adaptative des Préférences par Couche et Pas de Temps pour l'Animation de Portraits Pilotée par l'Audio

FantasyTalking2: Timestep-Layer Adaptive Preference Optimization for Audio-Driven Portrait Animation

August 15, 2025
papers.authors: MengChao Wang, Qiang Wang, Fan Jiang, Mu Xu
cs.AI

papers.abstract

Les récents progrès dans l'animation de portraits pilotée par l'audio ont démontré des capacités impressionnantes. Cependant, les méthodes existantes peinent à s'aligner sur les préférences humaines fines et multidimensionnelles, telles que le naturel des mouvements, la précision de la synchronisation labiale et la qualité visuelle. Cela est dû à la difficulté d'optimiser des objectifs de préférence souvent conflictuels, ainsi qu'à la rareté de jeux de données de grande échelle et de haute qualité comportant des annotations de préférence multidimensionnelles. Pour résoudre ces problèmes, nous introduisons d'abord Talking-Critic, un modèle de récompense multimodal qui apprend des fonctions de récompense alignées sur les humains pour quantifier dans quelle mesure les vidéos générées satisfont les attentes multidimensionnelles. En nous appuyant sur ce modèle, nous constituons Talking-NSQ, un jeu de données de préférence humaine multidimensionnelle à grande échelle contenant 410 000 paires de préférences. Enfin, nous proposons Timestep-Layer adaptive multi-expert Preference Optimization (TLPO), un cadre novateur pour aligner les modèles d'animation de portraits basés sur la diffusion avec des préférences fines et multidimensionnelles. TLPO découple les préférences en modules experts spécialisés, qui sont ensuite fusionnés à travers les étapes temporelles et les couches du réseau, permettant une amélioration complète et fine dans toutes les dimensions sans interférence mutuelle. Les expériences montrent que Talking-Critic surpasse significativement les méthodes existantes en termes d'alignement avec les évaluations de préférence humaine. Par ailleurs, TLPO réalise des améliorations substantielles par rapport aux modèles de référence en précision de synchronisation labiale, naturel des mouvements et qualité visuelle, affichant une performance supérieure dans les évaluations qualitatives et quantitatives. Notre page de projet : https://fantasy-amap.github.io/fantasy-talking2/
English
Recent advances in audio-driven portrait animation have demonstrated impressive capabilities. However, existing methods struggle to align with fine-grained human preferences across multiple dimensions, such as motion naturalness, lip-sync accuracy, and visual quality. This is due to the difficulty of optimizing among competing preference objectives, which often conflict with one another, and the scarcity of large-scale, high-quality datasets with multidimensional preference annotations. To address these, we first introduce Talking-Critic, a multimodal reward model that learns human-aligned reward functions to quantify how well generated videos satisfy multidimensional expectations. Leveraging this model, we curate Talking-NSQ, a large-scale multidimensional human preference dataset containing 410K preference pairs. Finally, we propose Timestep-Layer adaptive multi-expert Preference Optimization (TLPO), a novel framework for aligning diffusion-based portrait animation models with fine-grained, multidimensional preferences. TLPO decouples preferences into specialized expert modules, which are then fused across timesteps and network layers, enabling comprehensive, fine-grained enhancement across all dimensions without mutual interference. Experiments demonstrate that Talking-Critic significantly outperforms existing methods in aligning with human preference ratings. Meanwhile, TLPO achieves substantial improvements over baseline models in lip-sync accuracy, motion naturalness, and visual quality, exhibiting superior performance in both qualitative and quantitative evaluations. Ours project page: https://fantasy-amap.github.io/fantasy-talking2/
PDF92August 18, 2025