Неявное согласование предпочтений для анимации изображений человека

Аннотация

Анимация человеческих изображений достигла значительных успехов, однако создание высококачественных движений рук остается сложной задачей из-за их высокой степени свободы и сложности движений. Хотя обучение с подкреплением на основе обратной связи от человека, в частности прямая оптимизация предпочтений, предлагает потенциальное решение, оно требует построения строгих пар предпочтений. Однако формирование таких пар для динамичных областей рук является чрезвычайно затратным и часто непрактичным из-за покадровой несогласованности. В данной статье мы предлагаем неявное согласование предпочтений (IPA) — эффективную с точки зрения данных пост-обучающую структуру, которая устраняет необходимость в парных данных предпочтений. Теоретически обоснованная неявной максимизацией вознаграждения, IPA согласует модель путем максимизации вероятности самостоятельно сгенерированных высококачественных образцов, одновременно штрафуя за отклонения от предварительно обученного априорного распределения. Кроме того, мы вводим механизм локальной оптимизации с учетом рук для явного направления процесса согласования в сторону областей рук. Эксперименты показывают, что наш метод достигает эффективной оптимизации предпочтений для улучшения качества генерации рук, одновременно значительно снижая барьер для создания данных предпочтений. Коды опубликованы по адресу https://github.com/mdswyz/IPA.

English

Human image animation has witnessed significant advancements, yet generating high-fidelity hand motions remains a persistent challenge due to their high degrees of freedom and motion complexity. While reinforcement learning from human feedback, particularly direct preference optimization, offers a potential solution, it necessitates the construction of strict preference pairs. However, curating such pairs for dynamic hand regions is prohibitively expensive and often impractical due to frame-wise inconsistencies. In this paper, we propose Implicit Preference Alignment (IPA), a data-efficient post-training framework that eliminates the need for paired preference data. Theoretically grounded in implicit reward maximization, IPA aligns the model by maximizing the likelihood of self-generated high-quality samples while penalizing deviations from the pretrained prior. Furthermore, we introduce a Hand-Aware Local Optimization mechanism to explicitly steer the alignment process toward hand regions. Experiments demonstrate that our method achieves effective preference optimization to enhance hand generation quality, while significantly lowering the barrier for constructing preference data. Codes are released at https://github.com/mdswyz/IPA

Неявное согласование предпочтений для анимации изображений человека

Implicit Preference Alignment for Human Image Animation

Аннотация

Support