FantasyTalking2: Tijdstap-Laag Adaptieve Voorkeursoptimalisatie voor Audio-Gestuurde Portretanimatie
FantasyTalking2: Timestep-Layer Adaptive Preference Optimization for Audio-Driven Portrait Animation
August 15, 2025
Auteurs: MengChao Wang, Qiang Wang, Fan Jiang, Mu Xu
cs.AI
Samenvatting
Recente vooruitgang in audio-gestuurde portretanimatie heeft indrukwekkende mogelijkheden laten zien. Bestaande methoden hebben echter moeite om af te stemmen op fijnmazige menselijke voorkeuren op meerdere dimensies, zoals bewegingsnatuurlijkheid, lip-sync nauwkeurigheid en visuele kwaliteit. Dit komt door de moeilijkheid om te optimaliseren tussen concurrerende voorkeursdoelen, die vaak met elkaar in conflict zijn, en de schaarste aan grootschalige, hoogwaardige datasets met multidimensionale voorkeursannotaties. Om deze problemen aan te pakken, introduceren we eerst Talking-Critic, een multimodaal beloningsmodel dat menselijk afgestemde beloningsfuncties leert om te kwantificeren hoe goed gegenereerde video's voldoen aan multidimensionale verwachtingen. Gebruikmakend van dit model, stellen we Talking-NSQ samen, een grootschalige multidimensionale menselijke voorkeursdataset met 410K voorkeursparen. Ten slotte stellen we Timestep-Layer adaptieve multi-expert Preference Optimization (TLPO) voor, een nieuw raamwerk voor het afstemmen van diffusie-gebaseerde portretanimatiemodellen op fijnmazige, multidimensionale voorkeuren. TLPO ontkoppelt voorkeuren in gespecialiseerde expertmodules, die vervolgens worden samengevoegd over tijdstappen en netwerklagen, waardoor een uitgebreide, fijnmazige verbetering over alle dimensies mogelijk wordt zonder onderlinge interferentie. Experimenten tonen aan dat Talking-Critic bestaande methoden significant overtreft in het afstemmen op menselijke voorkeursbeoordelingen. Tegelijkertijd behaalt TLPO aanzienlijke verbeteringen ten opzichte van baseline-modellen in lip-sync nauwkeurigheid, bewegingsnatuurlijkheid en visuele kwaliteit, en vertoont het superieure prestaties in zowel kwalitatieve als kwantitatieve evaluaties. Onze projectpagina: https://fantasy-amap.github.io/fantasy-talking2/
English
Recent advances in audio-driven portrait animation have demonstrated
impressive capabilities. However, existing methods struggle to align with
fine-grained human preferences across multiple dimensions, such as motion
naturalness, lip-sync accuracy, and visual quality. This is due to the
difficulty of optimizing among competing preference objectives, which often
conflict with one another, and the scarcity of large-scale, high-quality
datasets with multidimensional preference annotations. To address these, we
first introduce Talking-Critic, a multimodal reward model that learns
human-aligned reward functions to quantify how well generated videos satisfy
multidimensional expectations. Leveraging this model, we curate Talking-NSQ, a
large-scale multidimensional human preference dataset containing 410K
preference pairs. Finally, we propose Timestep-Layer adaptive multi-expert
Preference Optimization (TLPO), a novel framework for aligning diffusion-based
portrait animation models with fine-grained, multidimensional preferences. TLPO
decouples preferences into specialized expert modules, which are then fused
across timesteps and network layers, enabling comprehensive, fine-grained
enhancement across all dimensions without mutual interference. Experiments
demonstrate that Talking-Critic significantly outperforms existing methods in
aligning with human preference ratings. Meanwhile, TLPO achieves substantial
improvements over baseline models in lip-sync accuracy, motion naturalness, and
visual quality, exhibiting superior performance in both qualitative and
quantitative evaluations. Ours project page:
https://fantasy-amap.github.io/fantasy-talking2/