Alignement implicite des préférences pour l’animation d’images humaines

Résumé

L'animation d'images humaines a connu des avancées significatives, mais la génération de mouvements de main de haute fidélité reste un défi persistant en raison de leurs degrés de liberté élevés et de la complexité de leurs mouvements. Bien que l'apprentissage par renforcement à partir de retours humains, en particulier l'optimisation directe des préférences, offre une solution potentielle, elle nécessite la construction de paires de préférence strictes. Cependant, la curation de telles paires pour les régions dynamiques des mains est excessivement coûteuse et souvent irréalisable en raison d'incohérences image par image. Dans cet article, nous proposons l'Alignement Implicite des Préférences (IPA), un cadre de post-entraînement économe en données qui élimine le besoin de données de préférence appariées. Théoriquement fondé sur la maximisation implicite de récompense, IPA aligne le modèle en maximisant la vraisemblance des échantillons autogénérés de haute qualité tout en pénalisant les écarts par rapport à l'a priori pré-entraîné. De plus, nous introduisons un mécanisme d'Optimisation Locale Sensible aux Mains pour orienter explicitement le processus d'alignement vers les régions des mains. Les expériences démontrent que notre méthode atteint une optimisation efficace des préférences pour améliorer la qualité de génération des mains, tout en abaissant considérablement la barrière de construction des données de préférence. Les codes sont disponibles à l'adresse https://github.com/mdswyz/IPA.

English

Human image animation has witnessed significant advancements, yet generating high-fidelity hand motions remains a persistent challenge due to their high degrees of freedom and motion complexity. While reinforcement learning from human feedback, particularly direct preference optimization, offers a potential solution, it necessitates the construction of strict preference pairs. However, curating such pairs for dynamic hand regions is prohibitively expensive and often impractical due to frame-wise inconsistencies. In this paper, we propose Implicit Preference Alignment (IPA), a data-efficient post-training framework that eliminates the need for paired preference data. Theoretically grounded in implicit reward maximization, IPA aligns the model by maximizing the likelihood of self-generated high-quality samples while penalizing deviations from the pretrained prior. Furthermore, we introduce a Hand-Aware Local Optimization mechanism to explicitly steer the alignment process toward hand regions. Experiments demonstrate that our method achieves effective preference optimization to enhance hand generation quality, while significantly lowering the barrier for constructing preference data. Codes are released at https://github.com/mdswyz/IPA

Alignement implicite des préférences pour l’animation d’images humaines

Implicit Preference Alignment for Human Image Animation

Résumé

Support