ChatPaper.aiChatPaper

FantasyTalking2: Адаптивная оптимизация предпочтений на уровне временных шагов для анимации портретов, управляемой аудио

FantasyTalking2: Timestep-Layer Adaptive Preference Optimization for Audio-Driven Portrait Animation

August 15, 2025
Авторы: MengChao Wang, Qiang Wang, Fan Jiang, Mu Xu
cs.AI

Аннотация

Последние достижения в области аудиоуправляемой анимации портретов демонстрируют впечатляющие возможности. Однако существующие методы сталкиваются с трудностями в согласовании с тонкими предпочтениями человека по множеству аспектов, таких как естественность движений, точность синхронизации губ и визуальное качество. Это связано с трудностью оптимизации среди конкурирующих целей предпочтений, которые часто противоречат друг другу, а также с недостатком крупномасштабных, высококачественных наборов данных с многомерными аннотациями предпочтений. Для решения этих проблем мы сначала представляем Talking-Critic, мультимодальную модель вознаграждения, которая обучается на выравнивании с человеческими предпочтениями, чтобы количественно оценивать, насколько хорошо созданные видео удовлетворяют многомерным ожиданиям. Используя эту модель, мы создаем Talking-NSQ, крупномасштабный набор данных с многомерными предпочтениями человека, содержащий 410 тысяч пар предпочтений. Наконец, мы предлагаем Timestep-Layer adaptive multi-expert Preference Optimization (TLPO), новую структуру для выравнивания моделей анимации портретов на основе диффузии с тонкими, многомерными предпочтениями. TLPO разделяет предпочтения на специализированные экспертные модули, которые затем объединяются на протяжении временных шагов и слоев сети, что позволяет достичь всестороннего, тонкого улучшения по всем аспектам без взаимного вмешательства. Эксперименты показывают, что Talking-Critic значительно превосходит существующие методы в согласовании с рейтингами человеческих предпочтений. В то же время TLPO достигает существенных улучшений по сравнению с базовыми моделями в точности синхронизации губ, естественности движений и визуальном качестве, демонстрируя превосходную производительность как в качественных, так и в количественных оценках. Наша страница проекта: https://fantasy-amap.github.io/fantasy-talking2/
English
Recent advances in audio-driven portrait animation have demonstrated impressive capabilities. However, existing methods struggle to align with fine-grained human preferences across multiple dimensions, such as motion naturalness, lip-sync accuracy, and visual quality. This is due to the difficulty of optimizing among competing preference objectives, which often conflict with one another, and the scarcity of large-scale, high-quality datasets with multidimensional preference annotations. To address these, we first introduce Talking-Critic, a multimodal reward model that learns human-aligned reward functions to quantify how well generated videos satisfy multidimensional expectations. Leveraging this model, we curate Talking-NSQ, a large-scale multidimensional human preference dataset containing 410K preference pairs. Finally, we propose Timestep-Layer adaptive multi-expert Preference Optimization (TLPO), a novel framework for aligning diffusion-based portrait animation models with fine-grained, multidimensional preferences. TLPO decouples preferences into specialized expert modules, which are then fused across timesteps and network layers, enabling comprehensive, fine-grained enhancement across all dimensions without mutual interference. Experiments demonstrate that Talking-Critic significantly outperforms existing methods in aligning with human preference ratings. Meanwhile, TLPO achieves substantial improvements over baseline models in lip-sync accuracy, motion naturalness, and visual quality, exhibiting superior performance in both qualitative and quantitative evaluations. Ours project page: https://fantasy-amap.github.io/fantasy-talking2/
PDF92August 18, 2025