FantasyTalking2: Zeitschritt-Ebenen-adaptive Präferenzoptimierung für audiogesteuerte Porträtanimation
FantasyTalking2: Timestep-Layer Adaptive Preference Optimization for Audio-Driven Portrait Animation
August 15, 2025
papers.authors: MengChao Wang, Qiang Wang, Fan Jiang, Mu Xu
cs.AI
papers.abstract
Jüngste Fortschritte in der audio-gesteuerten Porträtanimation haben beeindruckende Fähigkeiten demonstriert. Allerdings haben bestehende Methoden Schwierigkeiten, sich mit fein abgestimmten menschlichen Präferenzen über mehrere Dimensionen hinweg in Einklang zu bringen, wie z. B. Natürlichkeit der Bewegung, Genauigkeit der Lippensynchronisation und visuelle Qualität. Dies liegt an der Schwierigkeit, zwischen konkurrierenden Präferenzzielen zu optimieren, die oft miteinander in Konflikt stehen, sowie an der Knappheit von groß angelegten, hochwertigen Datensätzen mit mehrdimensionalen Präferenzannotationen. Um diese Probleme zu lösen, führen wir zunächst Talking-Critic ein, ein multimodales Belohnungsmodell, das menschlich ausgerichtete Belohnungsfunktionen lernt, um zu quantifizieren, wie gut generierte Videos mehrdimensionale Erwartungen erfüllen. Mit diesem Modell kuratieren wir Talking-NSQ, einen groß angelegten mehrdimensionalen menschlichen Präferenzdatensatz, der 410.000 Präferenzpaare enthält. Schließlich schlagen wir Timestep-Layer adaptive multi-expert Preference Optimization (TLPO) vor, ein neuartiges Framework zur Ausrichtung von diffusionsbasierten Porträtanimationsmodellen auf fein abgestimmte, mehrdimensionale Präferenzen. TLPO entkoppelt Präferenzen in spezialisierte Expertenmodule, die dann über Zeitschritte und Netzwerkschichten hinweg fusioniert werden, wodurch eine umfassende, fein abgestimmte Verbesserung über alle Dimensionen hinweg ohne gegenseitige Interferenz ermöglicht wird. Experimente zeigen, dass Talking-Critic bestehende Methoden bei der Ausrichtung auf menschliche Präferenzbewertungen deutlich übertrifft. Gleichzeitig erzielt TLPO erhebliche Verbesserungen gegenüber Baseline-Modellen in Bezug auf Lippensynchronisationsgenauigkeit, Natürlichkeit der Bewegung und visuelle Qualität und zeigt eine überlegene Leistung in sowohl qualitativen als auch quantitativen Bewertungen. Unsere Projektseite: https://fantasy-amap.github.io/fantasy-talking2/
English
Recent advances in audio-driven portrait animation have demonstrated
impressive capabilities. However, existing methods struggle to align with
fine-grained human preferences across multiple dimensions, such as motion
naturalness, lip-sync accuracy, and visual quality. This is due to the
difficulty of optimizing among competing preference objectives, which often
conflict with one another, and the scarcity of large-scale, high-quality
datasets with multidimensional preference annotations. To address these, we
first introduce Talking-Critic, a multimodal reward model that learns
human-aligned reward functions to quantify how well generated videos satisfy
multidimensional expectations. Leveraging this model, we curate Talking-NSQ, a
large-scale multidimensional human preference dataset containing 410K
preference pairs. Finally, we propose Timestep-Layer adaptive multi-expert
Preference Optimization (TLPO), a novel framework for aligning diffusion-based
portrait animation models with fine-grained, multidimensional preferences. TLPO
decouples preferences into specialized expert modules, which are then fused
across timesteps and network layers, enabling comprehensive, fine-grained
enhancement across all dimensions without mutual interference. Experiments
demonstrate that Talking-Critic significantly outperforms existing methods in
aligning with human preference ratings. Meanwhile, TLPO achieves substantial
improvements over baseline models in lip-sync accuracy, motion naturalness, and
visual quality, exhibiting superior performance in both qualitative and
quantitative evaluations. Ours project page:
https://fantasy-amap.github.io/fantasy-talking2/