FantasyTalking2: Tijdstap-Laag Adaptieve Voorkeursoptimalisatie voor Audio-Gestuurde Portretanimatie

Samenvatting

Recente vooruitgang in audio-gestuurde portretanimatie heeft indrukwekkende mogelijkheden laten zien. Bestaande methoden hebben echter moeite om af te stemmen op fijnmazige menselijke voorkeuren op meerdere dimensies, zoals bewegingsnatuurlijkheid, lip-sync nauwkeurigheid en visuele kwaliteit. Dit komt door de moeilijkheid om te optimaliseren tussen concurrerende voorkeursdoelen, die vaak met elkaar in conflict zijn, en de schaarste aan grootschalige, hoogwaardige datasets met multidimensionale voorkeursannotaties. Om deze problemen aan te pakken, introduceren we eerst Talking-Critic, een multimodaal beloningsmodel dat menselijk afgestemde beloningsfuncties leert om te kwantificeren hoe goed gegenereerde video's voldoen aan multidimensionale verwachtingen. Gebruikmakend van dit model, stellen we Talking-NSQ samen, een grootschalige multidimensionale menselijke voorkeursdataset met 410K voorkeursparen. Ten slotte stellen we Timestep-Layer adaptieve multi-expert Preference Optimization (TLPO) voor, een nieuw raamwerk voor het afstemmen van diffusie-gebaseerde portretanimatiemodellen op fijnmazige, multidimensionale voorkeuren. TLPO ontkoppelt voorkeuren in gespecialiseerde expertmodules, die vervolgens worden samengevoegd over tijdstappen en netwerklagen, waardoor een uitgebreide, fijnmazige verbetering over alle dimensies mogelijk wordt zonder onderlinge interferentie. Experimenten tonen aan dat Talking-Critic bestaande methoden significant overtreft in het afstemmen op menselijke voorkeursbeoordelingen. Tegelijkertijd behaalt TLPO aanzienlijke verbeteringen ten opzichte van baseline-modellen in lip-sync nauwkeurigheid, bewegingsnatuurlijkheid en visuele kwaliteit, en vertoont het superieure prestaties in zowel kwalitatieve als kwantitatieve evaluaties. Onze projectpagina: https://fantasy-amap.github.io/fantasy-talking2/

English

Recent advances in audio-driven portrait animation have demonstrated impressive capabilities. However, existing methods struggle to align with fine-grained human preferences across multiple dimensions, such as motion naturalness, lip-sync accuracy, and visual quality. This is due to the difficulty of optimizing among competing preference objectives, which often conflict with one another, and the scarcity of large-scale, high-quality datasets with multidimensional preference annotations. To address these, we first introduce Talking-Critic, a multimodal reward model that learns human-aligned reward functions to quantify how well generated videos satisfy multidimensional expectations. Leveraging this model, we curate Talking-NSQ, a large-scale multidimensional human preference dataset containing 410K preference pairs. Finally, we propose Timestep-Layer adaptive multi-expert Preference Optimization (TLPO), a novel framework for aligning diffusion-based portrait animation models with fine-grained, multidimensional preferences. TLPO decouples preferences into specialized expert modules, which are then fused across timesteps and network layers, enabling comprehensive, fine-grained enhancement across all dimensions without mutual interference. Experiments demonstrate that Talking-Critic significantly outperforms existing methods in aligning with human preference ratings. Meanwhile, TLPO achieves substantial improvements over baseline models in lip-sync accuracy, motion naturalness, and visual quality, exhibiting superior performance in both qualitative and quantitative evaluations. Ours project page: https://fantasy-amap.github.io/fantasy-talking2/

FantasyTalking2: Tijdstap-Laag Adaptieve Voorkeursoptimalisatie voor Audio-Gestuurde Portretanimatie

FantasyTalking2: Timestep-Layer Adaptive Preference Optimization for Audio-Driven Portrait Animation

Samenvatting

Support