ChatPaper.aiChatPaper

FantasyTalking2: Zeitschritt-Ebenen-adaptive Präferenzoptimierung für audiogesteuerte Porträtanimation

FantasyTalking2: Timestep-Layer Adaptive Preference Optimization for Audio-Driven Portrait Animation

August 15, 2025
papers.authors: MengChao Wang, Qiang Wang, Fan Jiang, Mu Xu
cs.AI

papers.abstract

Jüngste Fortschritte in der audio-gesteuerten Porträtanimation haben beeindruckende Fähigkeiten demonstriert. Allerdings haben bestehende Methoden Schwierigkeiten, sich mit fein abgestimmten menschlichen Präferenzen über mehrere Dimensionen hinweg in Einklang zu bringen, wie z. B. Natürlichkeit der Bewegung, Genauigkeit der Lippensynchronisation und visuelle Qualität. Dies liegt an der Schwierigkeit, zwischen konkurrierenden Präferenzzielen zu optimieren, die oft miteinander in Konflikt stehen, sowie an der Knappheit von groß angelegten, hochwertigen Datensätzen mit mehrdimensionalen Präferenzannotationen. Um diese Probleme zu lösen, führen wir zunächst Talking-Critic ein, ein multimodales Belohnungsmodell, das menschlich ausgerichtete Belohnungsfunktionen lernt, um zu quantifizieren, wie gut generierte Videos mehrdimensionale Erwartungen erfüllen. Mit diesem Modell kuratieren wir Talking-NSQ, einen groß angelegten mehrdimensionalen menschlichen Präferenzdatensatz, der 410.000 Präferenzpaare enthält. Schließlich schlagen wir Timestep-Layer adaptive multi-expert Preference Optimization (TLPO) vor, ein neuartiges Framework zur Ausrichtung von diffusionsbasierten Porträtanimationsmodellen auf fein abgestimmte, mehrdimensionale Präferenzen. TLPO entkoppelt Präferenzen in spezialisierte Expertenmodule, die dann über Zeitschritte und Netzwerkschichten hinweg fusioniert werden, wodurch eine umfassende, fein abgestimmte Verbesserung über alle Dimensionen hinweg ohne gegenseitige Interferenz ermöglicht wird. Experimente zeigen, dass Talking-Critic bestehende Methoden bei der Ausrichtung auf menschliche Präferenzbewertungen deutlich übertrifft. Gleichzeitig erzielt TLPO erhebliche Verbesserungen gegenüber Baseline-Modellen in Bezug auf Lippensynchronisationsgenauigkeit, Natürlichkeit der Bewegung und visuelle Qualität und zeigt eine überlegene Leistung in sowohl qualitativen als auch quantitativen Bewertungen. Unsere Projektseite: https://fantasy-amap.github.io/fantasy-talking2/
English
Recent advances in audio-driven portrait animation have demonstrated impressive capabilities. However, existing methods struggle to align with fine-grained human preferences across multiple dimensions, such as motion naturalness, lip-sync accuracy, and visual quality. This is due to the difficulty of optimizing among competing preference objectives, which often conflict with one another, and the scarcity of large-scale, high-quality datasets with multidimensional preference annotations. To address these, we first introduce Talking-Critic, a multimodal reward model that learns human-aligned reward functions to quantify how well generated videos satisfy multidimensional expectations. Leveraging this model, we curate Talking-NSQ, a large-scale multidimensional human preference dataset containing 410K preference pairs. Finally, we propose Timestep-Layer adaptive multi-expert Preference Optimization (TLPO), a novel framework for aligning diffusion-based portrait animation models with fine-grained, multidimensional preferences. TLPO decouples preferences into specialized expert modules, which are then fused across timesteps and network layers, enabling comprehensive, fine-grained enhancement across all dimensions without mutual interference. Experiments demonstrate that Talking-Critic significantly outperforms existing methods in aligning with human preference ratings. Meanwhile, TLPO achieves substantial improvements over baseline models in lip-sync accuracy, motion naturalness, and visual quality, exhibiting superior performance in both qualitative and quantitative evaluations. Ours project page: https://fantasy-amap.github.io/fantasy-talking2/
PDF92August 18, 2025