ChatPaper.aiChatPaper

Lookahead Anchoring: Сохранение идентичности персонажа в аудиоуправляемой анимации человека

Lookahead Anchoring: Preserving Character Identity in Audio-Driven Human Animation

October 27, 2025
Авторы: Junyoung Seo, Rodrigo Mira, Alexandros Haliassos, Stella Bounareli, Honglie Chen, Linh Tran, Seungryong Kim, Zoe Landgraf, Jie Shen
cs.AI

Аннотация

Модели анимации человека на основе аудио часто сталкиваются с проблемой дрейфа идентичности во временной авторегрессионной генерации, когда персонажи постепенно утрачивают свои индивидуальные черты с течением времени. Одним из решений является генерация ключевых кадров в качестве промежуточных временных якорей, предотвращающих деградацию, но это требует дополнительного этапа генерации ключевых кадров и может ограничивать естественную динамику движений. Чтобы решить эту проблему, мы предлагаем метод Lookahead Anchoring (Ориентирование на будущее), который использует ключевые кадры из будущих временных шагов, опережающих текущее окно генерации, а не находящихся внутри него. Это преобразует ключевые кадры из фиксированных границ в направляющие ориентиры: модель постоянно стремится к этим будущим якорям, одновременно реагируя на непосредственные аудиосигналы, сохраняя последовательность идентичности за счет постоянного руководства. Это также позволяет реализовать само-ключевание (self-keyframing), когда референсное изображение служит целью для опережающего ориентирования, полностью устраняя необходимость в генерации ключевых кадров. Мы обнаружили, что временная дистанция опережения естественным образом контролирует баланс между выразительностью и последовательностью: большие расстояния позволяют достичь большей свободы движений, в то время как меньшие — усиливают соответствие идентичности. При применении к трем современным моделям анимации человека, метод Lookahead Anchoring демонстрирует превосходную синхронизацию губ, сохранение идентичности и визуальное качество, улучшая временное обусловливание в нескольких различных архитектурах. Видео-результаты доступны по ссылке: https://lookahead-anchoring.github.io.
English
Audio-driven human animation models often suffer from identity drift during temporal autoregressive generation, where characters gradually lose their identity over time. One solution is to generate keyframes as intermediate temporal anchors that prevent degradation, but this requires an additional keyframe generation stage and can restrict natural motion dynamics. To address this, we propose Lookahead Anchoring, which leverages keyframes from future timesteps ahead of the current generation window, rather than within it. This transforms keyframes from fixed boundaries into directional beacons: the model continuously pursues these future anchors while responding to immediate audio cues, maintaining consistent identity through persistent guidance. This also enables self-keyframing, where the reference image serves as the lookahead target, eliminating the need for keyframe generation entirely. We find that the temporal lookahead distance naturally controls the balance between expressivity and consistency: larger distances allow for greater motion freedom, while smaller ones strengthen identity adherence. When applied to three recent human animation models, Lookahead Anchoring achieves superior lip synchronization, identity preservation, and visual quality, demonstrating improved temporal conditioning across several different architectures. Video results are available at the following link: https://lookahead-anchoring.github.io.
PDF412December 31, 2025