ChatPaper.aiChatPaper

Lookahead Anchoring: Bewahrung der Charakteridentität in der audio-gesteuerten Human-Animation

Lookahead Anchoring: Preserving Character Identity in Audio-Driven Human Animation

October 27, 2025
papers.authors: Junyoung Seo, Rodrigo Mira, Alexandros Haliassos, Stella Bounareli, Honglie Chen, Linh Tran, Seungryong Kim, Zoe Landgraf, Jie Shen
cs.AI

papers.abstract

Audio-gesteuerte Human-Animation-Modelle leiden häufig unter Identitätsdrift während der temporal autoregressiven Generierung, bei der Charaktere mit der Zeit allmählich ihre Identität verlieren. Eine Lösung besteht darin, Keyframes als intermediäre temporale Anker zu generieren, die einen Qualitätsverlust verhindern. Dies erfordert jedoch eine zusätzliche Keyframe-Generierungsstufe und kann die natürliche Bewegungsdynamik einschränken. Um dieses Problem zu lösen, schlagen wir Lookahead Anchoring vor, das Keyframes aus zukünftigen Zeitschritten vor dem aktuellen Generierungsfenster nutzt, anstatt innerhalb desselben. Dies wandelt Keyframes von festen Grenzen in richtungsweisende Leitsignale um: Das Modell verfolgt kontinuierlich diese zukünftigen Anker, während es auf unmittelbare Audio-Hinweise reagiert, und bewahrt so durch persistente Führung eine konsistente Identität. Dies ermöglicht auch Self-Keyframing, bei dem das Referenzbild selbst als Lookahead-Ziel dient und die Notwendigkeit einer Keyframe-Generierung vollständig entfällt. Wir stellen fest, dass die temporale Lookahead-Distanz natürlich das Gleichgewicht zwischen Expressivität und Konsistenz steuert: Größere Distanzen ermöglichen mehr Bewegungsfreiheit, während kleinere die Identitätstreue verstärken. Bei der Anwendung auf drei aktuelle Human-Animation-Modelle erzielt Lookahead Anchoring eine überlegene Lippensynchronisation, Identitätserhaltung und visuelle Qualität und demonstriert verbesserte temporale Konditionierung über mehrere verschiedene Architekturen hinweg. Videoergebnisse sind unter folgendem Link verfügbar: https://lookahead-anchoring.github.io.
English
Audio-driven human animation models often suffer from identity drift during temporal autoregressive generation, where characters gradually lose their identity over time. One solution is to generate keyframes as intermediate temporal anchors that prevent degradation, but this requires an additional keyframe generation stage and can restrict natural motion dynamics. To address this, we propose Lookahead Anchoring, which leverages keyframes from future timesteps ahead of the current generation window, rather than within it. This transforms keyframes from fixed boundaries into directional beacons: the model continuously pursues these future anchors while responding to immediate audio cues, maintaining consistent identity through persistent guidance. This also enables self-keyframing, where the reference image serves as the lookahead target, eliminating the need for keyframe generation entirely. We find that the temporal lookahead distance naturally controls the balance between expressivity and consistency: larger distances allow for greater motion freedom, while smaller ones strengthen identity adherence. When applied to three recent human animation models, Lookahead Anchoring achieves superior lip synchronization, identity preservation, and visual quality, demonstrating improved temporal conditioning across several different architectures. Video results are available at the following link: https://lookahead-anchoring.github.io.
PDF412December 31, 2025