Alineación implícita de preferencias para la animación de imágenes humanas

Resumen

La animación de imágenes humanas ha experimentado avances significativos; sin embargo, generar movimientos de manos de alta fidelidad sigue siendo un desafío persistente debido a sus altos grados de libertad y complejidad de movimiento. Si bien el aprendizaje por refuerzo a partir de retroalimentación humana, en particular la optimización directa de preferencias, ofrece una solución potencial, requiere la construcción de pares de preferencia estrictos. No obstante, la curaduría de dichos pares para regiones de manos dinámicas es prohibitivamente costosa y, a menudo, poco práctica debido a inconsistencias fotograma a fotograma. En este artículo, proponemos la Alineación Implícita de Preferencias (IPA), un marco de post-entrenamiento eficiente en datos que elimina la necesidad de datos de preferencia emparejados. Fundamentada teóricamente en la maximización implícita de recompensa, IPA alinea el modelo maximizando la probabilidad de muestras de alta calidad autogeneradas, mientras penaliza las desviaciones del previo preentrenado. Además, introducimos un mecanismo de Optimización Local Consciente de las Manos para dirigir explícitamente el proceso de alineación hacia las regiones de las manos. Los experimentos demuestran que nuestro método logra una optimización de preferencias efectiva para mejorar la calidad de generación de manos, al tiempo que reduce significativamente la barrera para construir datos de preferencia. Los códigos se publican en https://github.com/mdswyz/IPA.

English

Human image animation has witnessed significant advancements, yet generating high-fidelity hand motions remains a persistent challenge due to their high degrees of freedom and motion complexity. While reinforcement learning from human feedback, particularly direct preference optimization, offers a potential solution, it necessitates the construction of strict preference pairs. However, curating such pairs for dynamic hand regions is prohibitively expensive and often impractical due to frame-wise inconsistencies. In this paper, we propose Implicit Preference Alignment (IPA), a data-efficient post-training framework that eliminates the need for paired preference data. Theoretically grounded in implicit reward maximization, IPA aligns the model by maximizing the likelihood of self-generated high-quality samples while penalizing deviations from the pretrained prior. Furthermore, we introduce a Hand-Aware Local Optimization mechanism to explicitly steer the alignment process toward hand regions. Experiments demonstrate that our method achieves effective preference optimization to enhance hand generation quality, while significantly lowering the barrier for constructing preference data. Codes are released at https://github.com/mdswyz/IPA

Alineación implícita de preferencias para la animación de imágenes humanas

Implicit Preference Alignment for Human Image Animation

Resumen

Support