ChatPaper.aiChatPaper

Lookahead Anchoring: 오디오 기반 인간 애니메이션에서 캐릭터 정체성 보존

Lookahead Anchoring: Preserving Character Identity in Audio-Driven Human Animation

October 27, 2025
저자: Junyoung Seo, Rodrigo Mira, Alexandros Haliassos, Stella Bounareli, Honglie Chen, Linh Tran, Seungryong Kim, Zoe Landgraf, Jie Shen
cs.AI

초록

오디오 기반 인간 애니메이션 모델은 시간적 자기회귀 생성 과정에서 종종 정체성 드리프트(identity drift) 문제를 겪습니다. 즉, 시간이 지남에 따라 캐릭터의 정체성이 점차 흐려지는 현상이 발생합니다. 한 가지 해결책은 열화 현상을 방지하는 중간 시간적 기준점으로 키프레임을 생성하는 것이지만, 이는 별도의 키프레임 생성 단계를 필요로 하고 자연스러운 동적 움직임을 제한할 수 있습니다. 이를 해결하기 위해 우리는 현재 생성 창(window) 내부가 아닌, 미래 시간대의 키프레임을 활용하는 'Lookahead Anchoring' 기법을 제안합니다. 이는 키프레임을 고정된 경계가 아닌 방향성 신호(directional beacon)로 전환합니다. 모델은 즉각적인 오디오 신호에 반응하면서도 이러한 미래 기준점을 지속적으로 추구함으로써 일관된 정체성을 유지합니다. 또한 이 방법은 참조 이미지가 미리 보기 대상(lookahead target) 역할을 하는 자기 키프레임 생성(self-keyframing)을 가능하게 하여 키프레임 생성 단계 자체를 완전히 제거합니다. 우리는 시간적 미리 보기 거리(lookahead distance)가 표현력과 일관성 사이의 균형을 자연스럽게 제어한다는 것을 발견했습니다. 즉, 거리가 클수록 움직임의 자유도가 높아지고, 거리가 짧을수록 정체성 유지가 강화됩니다. 최근의 세 가지 인간 애니메이션 모델에 적용한 결과, Lookahead Anchoring 기법이 우수한 입 동기화, 정체성 보존 및 시각적 품질을 달성하여 여러 다른 아키텍처에서 개선된 시간적 조건 설정(temporal conditioning) 성능을 입증했습니다. 영상 결과는 다음 링크에서 확인할 수 있습니다: https://lookahead-anchoring.github.io.
English
Audio-driven human animation models often suffer from identity drift during temporal autoregressive generation, where characters gradually lose their identity over time. One solution is to generate keyframes as intermediate temporal anchors that prevent degradation, but this requires an additional keyframe generation stage and can restrict natural motion dynamics. To address this, we propose Lookahead Anchoring, which leverages keyframes from future timesteps ahead of the current generation window, rather than within it. This transforms keyframes from fixed boundaries into directional beacons: the model continuously pursues these future anchors while responding to immediate audio cues, maintaining consistent identity through persistent guidance. This also enables self-keyframing, where the reference image serves as the lookahead target, eliminating the need for keyframe generation entirely. We find that the temporal lookahead distance naturally controls the balance between expressivity and consistency: larger distances allow for greater motion freedom, while smaller ones strengthen identity adherence. When applied to three recent human animation models, Lookahead Anchoring achieves superior lip synchronization, identity preservation, and visual quality, demonstrating improved temporal conditioning across several different architectures. Video results are available at the following link: https://lookahead-anchoring.github.io.
PDF412December 31, 2025