FantasyTalking2: Ottimizzazione Adattiva delle Preferenze a Livello di Timestep per l'Animazione di Ritratti Guidata dall'Audio
FantasyTalking2: Timestep-Layer Adaptive Preference Optimization for Audio-Driven Portrait Animation
August 15, 2025
Autori: MengChao Wang, Qiang Wang, Fan Jiang, Mu Xu
cs.AI
Abstract
I recenti progressi nell'animazione di ritratti guidata dall'audio hanno dimostrato capacità impressionanti. Tuttavia, i metodi esistenti faticano ad allinearsi con le preferenze umane dettagliate su più dimensioni, come la naturalezza del movimento, l'accuratezza della sincronizzazione labiale e la qualità visiva. Ciò è dovuto alla difficoltà di ottimizzare tra obiettivi di preferenza in competizione, che spesso confliggono tra loro, e alla scarsità di dataset su larga scala e di alta qualità con annotazioni di preferenza multidimensionali. Per affrontare questi problemi, introduciamo prima Talking-Critic, un modello di ricompensa multimodale che apprende funzioni di ricompensa allineate all'uomo per quantificare quanto bene i video generati soddisfano le aspettative multidimensionali. Sfruttando questo modello, curiamo Talking-NSQ, un dataset su larga scala di preferenze umane multidimensionali contenente 410K coppie di preferenze. Infine, proponiamo Timestep-Layer adaptive multi-expert Preference Optimization (TLPO), un nuovo framework per allineare i modelli di animazione di ritratti basati su diffusione con preferenze dettagliate e multidimensionali. TLPO scompone le preferenze in moduli esperti specializzati, che vengono poi fusi attraverso i passaggi temporali e i livelli della rete, consentendo un miglioramento completo e dettagliato su tutte le dimensioni senza interferenze reciproche. Gli esperimenti dimostrano che Talking-Critic supera significativamente i metodi esistenti nell'allineamento con le valutazioni di preferenza umana. Nel frattempo, TLPO ottiene miglioramenti sostanziali rispetto ai modelli di riferimento in termini di accuratezza della sincronizzazione labiale, naturalezza del movimento e qualità visiva, mostrando prestazioni superiori sia nelle valutazioni qualitative che quantitative. La nostra pagina del progetto: https://fantasy-amap.github.io/fantasy-talking2/
English
Recent advances in audio-driven portrait animation have demonstrated
impressive capabilities. However, existing methods struggle to align with
fine-grained human preferences across multiple dimensions, such as motion
naturalness, lip-sync accuracy, and visual quality. This is due to the
difficulty of optimizing among competing preference objectives, which often
conflict with one another, and the scarcity of large-scale, high-quality
datasets with multidimensional preference annotations. To address these, we
first introduce Talking-Critic, a multimodal reward model that learns
human-aligned reward functions to quantify how well generated videos satisfy
multidimensional expectations. Leveraging this model, we curate Talking-NSQ, a
large-scale multidimensional human preference dataset containing 410K
preference pairs. Finally, we propose Timestep-Layer adaptive multi-expert
Preference Optimization (TLPO), a novel framework for aligning diffusion-based
portrait animation models with fine-grained, multidimensional preferences. TLPO
decouples preferences into specialized expert modules, which are then fused
across timesteps and network layers, enabling comprehensive, fine-grained
enhancement across all dimensions without mutual interference. Experiments
demonstrate that Talking-Critic significantly outperforms existing methods in
aligning with human preference ratings. Meanwhile, TLPO achieves substantial
improvements over baseline models in lip-sync accuracy, motion naturalness, and
visual quality, exhibiting superior performance in both qualitative and
quantitative evaluations. Ours project page:
https://fantasy-amap.github.io/fantasy-talking2/