Ancoragem de Previsão: Preservando a Identidade do Personagem na Animação Humana Orientada por Áudio
Lookahead Anchoring: Preserving Character Identity in Audio-Driven Human Animation
October 27, 2025
Autores: Junyoung Seo, Rodrigo Mira, Alexandros Haliassos, Stella Bounareli, Honglie Chen, Linh Tran, Seungryong Kim, Zoe Landgraf, Jie Shen
cs.AI
Resumo
Os modelos de animação humana orientados por áudio frequentemente sofrem com desvio de identidade durante a geração temporal autorregressiva, onde os personagens gradualmente perdem sua identidade ao longo do tempo. Uma solução é gerar quadros-chave como âncoras temporais intermediárias que previnem a degradação, mas isso requer uma etapa adicional de geração de quadros-chave e pode restringir a dinâmica natural do movimento. Para resolver isso, propomos a Ancoragem Prospectiva (Lookahead Anchoring), que utiliza quadros-chave de intervalos de tempo futuros à frente da janela de geração atual, em vez de dentro dela. Isso transforma os quadros-chave de limites fixos em faróis direcionais: o modelo persegue continuamente essas âncoras futuras enquanto responde a pistas de áudio imediatas, mantendo uma identidade consistente por meio de orientação persistente. Isso também permite a auto-geração de quadros-chave, onde a imagem de referência serve como alvo prospectivo, eliminando completamente a necessidade de geração de quadros-chave. Descobrimos que a distância temporal prospectiva controla naturalmente o equilíbrio entre expressividade e consistência: distâncias maiores permitem maior liberdade de movimento, enquanto distâncias menores fortalecem a aderência à identidade. Quando aplicada a três modelos recentes de animação humana, a Ancoragem Prospectiva alcança sincronização labial superior, preservação de identidade e qualidade visual, demonstrando condicionamento temporal aprimorado em várias arquiteturas diferentes. Resultados em vídeo estão disponíveis no seguinte link: https://lookahead-anchoring.github.io.
English
Audio-driven human animation models often suffer from identity drift during
temporal autoregressive generation, where characters gradually lose their
identity over time. One solution is to generate keyframes as intermediate
temporal anchors that prevent degradation, but this requires an additional
keyframe generation stage and can restrict natural motion dynamics. To address
this, we propose Lookahead Anchoring, which leverages keyframes from future
timesteps ahead of the current generation window, rather than within it. This
transforms keyframes from fixed boundaries into directional beacons: the model
continuously pursues these future anchors while responding to immediate audio
cues, maintaining consistent identity through persistent guidance. This also
enables self-keyframing, where the reference image serves as the lookahead
target, eliminating the need for keyframe generation entirely. We find that the
temporal lookahead distance naturally controls the balance between expressivity
and consistency: larger distances allow for greater motion freedom, while
smaller ones strengthen identity adherence. When applied to three recent human
animation models, Lookahead Anchoring achieves superior lip synchronization,
identity preservation, and visual quality, demonstrating improved temporal
conditioning across several different architectures. Video results are
available at the following link: https://lookahead-anchoring.github.io.