ChatPaper.aiChatPaper

매듭 강제화: 실시간 무한 인터랙티브 초상화 애니메이션을 위한 자기회귀 비디오 확산 모델 제어

Knot Forcing: Taming Autoregressive Video Diffusion Models for Real-time Infinite Interactive Portrait Animation

December 25, 2025
저자: Steven Xiao, Xindi Zhang, Dechao Meng, Qi Wang, Peng Zhang, Bang Zhang
cs.AI

초록

실시간 초상화 애니메이션은 가상 어시스턴트 및 라이브 아바타와 같은 인터랙티브 애플리케이션에 필수적이며, 높은 시각적 정확도, 시간적 일관성, 초저지연 및 참조 이미지 및 구동 신호와 같은 동적 입력으로부터의 반응형 제어를 요구합니다. 확산 기반 모델은 높은 품질을 달성하지만 비인과적 특성으로 인해 스트리밍 배포가 제한됩니다. 인과적 자기회귀 비디오 생성 접근법은 효율적인 프레임 단위 생성을 가능하게 하지만 오류 누적, 청크 경계에서의 모션 불연속성, 그리고 장기 일관성 저하 문제가 발생합니다. 본 연구에서는 이러한 문제를 해결하기 위한 세 가지 핵심 설계로 구성된 새로운 스트리밍 프레임워크인 Knot Forcing을 제안합니다: (1) 참조 이미지의 캐시된 KV 상태를 통한 글로벌 정체성 보존 및 슬라이딩 윈도우 어텐션을 이용한 지역적 시간 모델링을 포함한 청크 단위 생성 전략; (2) 인접 청크를 중첩하고 이미지-비디오 조건화를 통해 시공간적 단서를 전파하여 청크 간 모션 전환을 부드럽게 하는 시간적 매듭 모듈; (3) 장기 일관성을 지원하기 위해 추론 중 참조 프레임의 시간적 좌표를 동적으로 업데이트하여 현재 롤아웃 프레임보다 시맨틱 컨텍스트를 앞서가도록 유지하는 "런닝 어헤드" 메커니즘. Knot Forcing은 무한 시퀀스에 걸쳐 높은 정확도, 시간적 일관성 및 인터랙티브한 초상화 애니메이션을 가능하게 하며, 소비자 등급 GPU에서 강력한 시각적 안정성과 함께 실시간 성능을 달성합니다.
English
Real-time portrait animation is essential for interactive applications such as virtual assistants and live avatars, requiring high visual fidelity, temporal coherence, ultra-low latency, and responsive control from dynamic inputs like reference images and driving signals. While diffusion-based models achieve strong quality, their non-causal nature hinders streaming deployment. Causal autoregressive video generation approaches enable efficient frame-by-frame generation but suffer from error accumulation, motion discontinuities at chunk boundaries, and degraded long-term consistency. In this work, we present a novel streaming framework named Knot Forcing for real-time portrait animation that addresses these challenges through three key designs: (1) a chunk-wise generation strategy with global identity preservation via cached KV states of the reference image and local temporal modeling using sliding window attention; (2) a temporal knot module that overlaps adjacent chunks and propagates spatio-temporal cues via image-to-video conditioning to smooth inter-chunk motion transitions; and (3) A "running ahead" mechanism that dynamically updates the reference frame's temporal coordinate during inference, keeping its semantic context ahead of the current rollout frame to support long-term coherence. Knot Forcing enables high-fidelity, temporally consistent, and interactive portrait animation over infinite sequences, achieving real-time performance with strong visual stability on consumer-grade GPUs.
PDF31December 31, 2025