ChatPaper.aiChatPaper

Anclaje de Anticipación: Preservación de la Identidad del Personaje en la Animación Humana Impulsada por Audio

Lookahead Anchoring: Preserving Character Identity in Audio-Driven Human Animation

October 27, 2025
Autores: Junyoung Seo, Rodrigo Mira, Alexandros Haliassos, Stella Bounareli, Honglie Chen, Linh Tran, Seungryong Kim, Zoe Landgraf, Jie Shen
cs.AI

Resumen

Los modelos de animación humana impulsados por audio a menudo sufren de deriva de identidad durante la generación autoregresiva temporal, donde los personajes pierden gradualmente su identidad con el tiempo. Una solución es generar fotogramas clave como anclajes temporales intermedios que previenen la degradación, pero esto requiere una etapa adicional de generación de fotogramas clave y puede restringir la dinámica natural del movimiento. Para abordar esto, proponemos Anclaje Prospectivo, que aprovecha fotogramas clave de intervalos de tiempo futuros anteriores a la ventana de generación actual, en lugar de dentro de ella. Esto transforma los fotogramas clave de límites fijos en faros direccionales: el modelo persigue continuamente estos anclajes futuros mientras responde a las señales de audio inmediatas, manteniendo una identidad consistente mediante una guía persistente. Esto también permite la auto-generación de fotogramas clave, donde la imagen de referencia sirve como objetivo prospectivo, eliminando por completo la necesidad de generar fotogramas clave. Encontramos que la distancia temporal prospectiva controla naturalmente el equilibrio entre expresividad y consistencia: distancias mayores permiten mayor libertad de movimiento, mientras que las menores fortalecen la adherencia a la identidad. Cuando se aplica a tres modelos recientes de animación humana, el Anclaje Prospectivo logra una sincronización labial superior, preservación de la identidad y calidad visual, demostrando una mejora en el condicionamiento temporal a través de varias arquitecturas diferentes. Los resultados en video están disponibles en el siguiente enlace: https://lookahead-anchoring.github.io.
English
Audio-driven human animation models often suffer from identity drift during temporal autoregressive generation, where characters gradually lose their identity over time. One solution is to generate keyframes as intermediate temporal anchors that prevent degradation, but this requires an additional keyframe generation stage and can restrict natural motion dynamics. To address this, we propose Lookahead Anchoring, which leverages keyframes from future timesteps ahead of the current generation window, rather than within it. This transforms keyframes from fixed boundaries into directional beacons: the model continuously pursues these future anchors while responding to immediate audio cues, maintaining consistent identity through persistent guidance. This also enables self-keyframing, where the reference image serves as the lookahead target, eliminating the need for keyframe generation entirely. We find that the temporal lookahead distance naturally controls the balance between expressivity and consistency: larger distances allow for greater motion freedom, while smaller ones strengthen identity adherence. When applied to three recent human animation models, Lookahead Anchoring achieves superior lip synchronization, identity preservation, and visual quality, demonstrating improved temporal conditioning across several different architectures. Video results are available at the following link: https://lookahead-anchoring.github.io.
PDF412December 31, 2025