ChatPaper.aiChatPaper

ルックアヘッドアンカリング:音声駆動人間アニメーションにおけるキャラクター同一性の保持

Lookahead Anchoring: Preserving Character Identity in Audio-Driven Human Animation

October 27, 2025
著者: Junyoung Seo, Rodrigo Mira, Alexandros Haliassos, Stella Bounareli, Honglie Chen, Linh Tran, Seungryong Kim, Zoe Landgraf, Jie Shen
cs.AI

要旨

音声駆動型人間アニメーションモデルは、時間的な自己回帰的生成において、キャラクターのアイデンティティが時間とともに徐々に失われる「アイデンティティ・ドリフト」に悩まされることが多い。この問題に対する一つの解決策は、劣化を防ぐための時間的な中間アンカーとしてキーフレームを生成することである。しかし、これには追加のキーフレーム生成ステージが必要となり、自然な動きのダイナミクスを制限する可能性がある。この課題に対処するため、我々はルックアヘッド・アンカリングを提案する。これは、現在の生成ウィンドウ内ではなく、将来のタイムステップからのキーフレームを活用する。これにより、キーフレームは固定された境界から方向指示の標識へと変容する。モデルは、即時の音声キューに応答しつつ、これらの将来のアンカーを絶えず追従することで、持続的なガイダンスを通じて一貫したアイデンティティを維持する。これはまた、参照画像自体がルックアヘッドの目標となる「自己キーフレーム化」を可能にし、キーフレーム生成を完全に不要とする。我々は、時間的なルックアヘッド距離が表現力と一貫性のバランスを自然に制御することを発見した。距離が大きいほど動きの自由度が高まり、小さいほどアイデンティティへの忠実性が強化される。3つの最近の人間アニメーションモデルに適用した結果、ルックアヘッド・アンカリングは、優れた口唇同期、アイデンティティ保存、視覚的品質を達成し、いくつかの異なるアーキテクチャにわたって時間的コンディショニングが改善されることを実証した。動画結果は以下のリンクで閲覧可能である:https://lookahead-anchoring.github.io。
English
Audio-driven human animation models often suffer from identity drift during temporal autoregressive generation, where characters gradually lose their identity over time. One solution is to generate keyframes as intermediate temporal anchors that prevent degradation, but this requires an additional keyframe generation stage and can restrict natural motion dynamics. To address this, we propose Lookahead Anchoring, which leverages keyframes from future timesteps ahead of the current generation window, rather than within it. This transforms keyframes from fixed boundaries into directional beacons: the model continuously pursues these future anchors while responding to immediate audio cues, maintaining consistent identity through persistent guidance. This also enables self-keyframing, where the reference image serves as the lookahead target, eliminating the need for keyframe generation entirely. We find that the temporal lookahead distance naturally controls the balance between expressivity and consistency: larger distances allow for greater motion freedom, while smaller ones strengthen identity adherence. When applied to three recent human animation models, Lookahead Anchoring achieves superior lip synchronization, identity preservation, and visual quality, demonstrating improved temporal conditioning across several different architectures. Video results are available at the following link: https://lookahead-anchoring.github.io.
PDF412December 31, 2025