Ancrage prospectif : préservation de l'identité des personnages dans l'animation humaine pilotée par l'audio
Lookahead Anchoring: Preserving Character Identity in Audio-Driven Human Animation
October 27, 2025
papers.authors: Junyoung Seo, Rodrigo Mira, Alexandros Haliassos, Stella Bounareli, Honglie Chen, Linh Tran, Seungryong Kim, Zoe Landgraf, Jie Shen
cs.AI
papers.abstract
Les modèles d'animation humaine pilotés par l'audio souffrent souvent d'une dérive identitaire lors de la génération autoregressive temporelle, où les personnages perdent progressivement leur identité au fil du temps. Une solution consiste à générer des images clés comme ancres temporelles intermédiaires pour prévenir la dégradation, mais cela nécessite une étape supplémentaire de génération de keyframes et peut restreindre la dynamique naturelle du mouvement. Pour résoudre ce problème, nous proposons l'Ancrage Prospectif (Lookahead Anchoring), qui exploite des images clés provenant d'instants futurs au-delà de la fenêtre de génération courante, plutôt qu'à l'intérieur de celle-ci. Cette approche transforme les images clés de limites fixes en balises directionnelles : le modèle poursuit continuellement ces ancres futures tout en répondant aux indices audio immédiats, maintenant une identité cohérente grâce à un guidage persistant. Cela permet également l'auto-génération de keyframes, où l'image de référence sert elle-même de cible prospective, éliminant totalement le besoin de générer des images clés. Nous constatons que la distance prospective temporelle contrôle naturellement l'équilibre entre expressivité et cohérence : des distances plus grandes permettent une plus grande liberté de mouvement, tandis que des distances plus réduites renforcent la fidélité identitaire. Appliqué à trois modèles récents d'animation humaine, l'Ancrage Prospectif permet d'atteindre une synchronisation labiale, une préservation de l'identité et une qualité visuelle supérieures, démontrant une amélioration du conditionnement temporel across plusieurs architectures différentes. Les résultats vidéo sont disponibles à l'adresse suivante : https://lookahead-anchoring.github.io.
English
Audio-driven human animation models often suffer from identity drift during
temporal autoregressive generation, where characters gradually lose their
identity over time. One solution is to generate keyframes as intermediate
temporal anchors that prevent degradation, but this requires an additional
keyframe generation stage and can restrict natural motion dynamics. To address
this, we propose Lookahead Anchoring, which leverages keyframes from future
timesteps ahead of the current generation window, rather than within it. This
transforms keyframes from fixed boundaries into directional beacons: the model
continuously pursues these future anchors while responding to immediate audio
cues, maintaining consistent identity through persistent guidance. This also
enables self-keyframing, where the reference image serves as the lookahead
target, eliminating the need for keyframe generation entirely. We find that the
temporal lookahead distance naturally controls the balance between expressivity
and consistency: larger distances allow for greater motion freedom, while
smaller ones strengthen identity adherence. When applied to three recent human
animation models, Lookahead Anchoring achieves superior lip synchronization,
identity preservation, and visual quality, demonstrating improved temporal
conditioning across several different architectures. Video results are
available at the following link: https://lookahead-anchoring.github.io.