ChatPaper.aiChatPaper

Lookahead Anchoring: Het Bewaren van Karakteridentiteit in Audiogestuurde Mensenanimatie

Lookahead Anchoring: Preserving Character Identity in Audio-Driven Human Animation

October 27, 2025
Auteurs: Junyoung Seo, Rodrigo Mira, Alexandros Haliassos, Stella Bounareli, Honglie Chen, Linh Tran, Seungryong Kim, Zoe Landgraf, Jie Shen
cs.AI

Samenvatting

Audio-gestuurde humane animatiemodellen kampen vaak met identiteitsverval tijdens temporele autoregressieve generatie, waarbij karakters geleidelijk hun identiteit verliezen in de loop van de tijd. Een oplossing is het genereren van keyframes als intermediaire temporele ankers die degradatie voorkomen, maar dit vereist een extra keyframe-generatiefase en kan de natuurlijke bewegingsdynamiek beperken. Om dit aan te pakken, stellen wij Lookahead Anchoring voor, dat gebruikmaakt van keyframes uit toekomstige tijdstappen vóór het huidige generatiewindow, in plaats van erbinnen. Dit transformeert keyframes van vaste grenzen naar directionele bakens: het model streeft continu naar deze toekomstige ankers terwijl het reageert op directe audiocues, waarbij een consistente identiteit wordt behouden door aanhoudende begeleiding. Dit maakt ook zelf-keyframing mogelijk, waarbij de referentieafbeelding dient als het lookahead-doel, waardoor de noodzaak voor keyframe-generatie volledig wordt geëlimineerd. Wij ontdekken dat de temporele lookahead-afstand van nature de balans beheerst tussen expressiviteit en consistentie: grotere afstanden zorgen voor meer bewegingsvrijheid, terwijl kleinere afstanden de identiteitshandhaving versterken. Toegepast op drie recente humane animatiemodellen bereikt Lookahead Anchoring superieure lipsynchronisatie, identiteitsbehoud en visuele kwaliteit, wat een verbeterde temporele conditionering aantoont over verschillende architecturen. Videoresultaten zijn beschikbaar op de volgende link: https://lookahead-anchoring.github.io.
English
Audio-driven human animation models often suffer from identity drift during temporal autoregressive generation, where characters gradually lose their identity over time. One solution is to generate keyframes as intermediate temporal anchors that prevent degradation, but this requires an additional keyframe generation stage and can restrict natural motion dynamics. To address this, we propose Lookahead Anchoring, which leverages keyframes from future timesteps ahead of the current generation window, rather than within it. This transforms keyframes from fixed boundaries into directional beacons: the model continuously pursues these future anchors while responding to immediate audio cues, maintaining consistent identity through persistent guidance. This also enables self-keyframing, where the reference image serves as the lookahead target, eliminating the need for keyframe generation entirely. We find that the temporal lookahead distance naturally controls the balance between expressivity and consistency: larger distances allow for greater motion freedom, while smaller ones strengthen identity adherence. When applied to three recent human animation models, Lookahead Anchoring achieves superior lip synchronization, identity preservation, and visual quality, demonstrating improved temporal conditioning across several different architectures. Video results are available at the following link: https://lookahead-anchoring.github.io.
PDF412December 31, 2025