Implizite Präferenzausrichtung für die Animation menschlicher Bilder

Zusammenfassung

Die Animation menschlicher Bilder hat bedeutende Fortschritte erzielt, doch die Erzeugung hochtreuer Handbewegungen bleibt aufgrund ihres hohen Freiheitsgrads und ihrer Bewegungskomplexität eine anhaltende Herausforderung. Während Verstärkungslernen aus menschlichem Feedback, insbesondere die direkte Präferenzoptimierung, eine potenzielle Lösung bietet, erfordert es die Konstruktion strikter Präferenzpaare. Die Erstellung solcher Paare für dynamische Handregionen ist jedoch aufgrund von bildweisen Inkonsistenzen unerschwinglich teuer und oft unpraktikabel. In diesem Beitrag schlagen wir Implicit Preference Alignment (IPA) vor, ein dateneffizientes Nachbearbeitungsframework, das die Notwendigkeit gepaarter Präferenzdaten eliminiert. Theoretisch fundiert durch implizite Belohnungsmaximierung, richtet IPA das Modell aus, indem es die Wahrscheinlichkeit selbstgenerierter hochwertiger Stichproben maximiert und Abweichungen vom vortrainierten Prior bestraft. Darüber hinaus führen wir einen handbewussten lokalen Optimierungsmechanismus ein, um den Ausrichtungsprozess explizit auf Handregionen zu lenken. Experimente zeigen, dass unsere Methode eine effektive Präferenzoptimierung zur Verbesserung der Handgenerierungsqualität erreicht, während die Hürde für die Erstellung von Präferenzdaten signifikant gesenkt wird. Der Code ist unter https://github.com/mdswyz/IPA verfügbar.

English

Human image animation has witnessed significant advancements, yet generating high-fidelity hand motions remains a persistent challenge due to their high degrees of freedom and motion complexity. While reinforcement learning from human feedback, particularly direct preference optimization, offers a potential solution, it necessitates the construction of strict preference pairs. However, curating such pairs for dynamic hand regions is prohibitively expensive and often impractical due to frame-wise inconsistencies. In this paper, we propose Implicit Preference Alignment (IPA), a data-efficient post-training framework that eliminates the need for paired preference data. Theoretically grounded in implicit reward maximization, IPA aligns the model by maximizing the likelihood of self-generated high-quality samples while penalizing deviations from the pretrained prior. Furthermore, we introduce a Hand-Aware Local Optimization mechanism to explicitly steer the alignment process toward hand regions. Experiments demonstrate that our method achieves effective preference optimization to enhance hand generation quality, while significantly lowering the barrier for constructing preference data. Codes are released at https://github.com/mdswyz/IPA

Implizite Präferenzausrichtung für die Animation menschlicher Bilder

Implicit Preference Alignment for Human Image Animation

Zusammenfassung

Support